002 - Selltiz

2 MEDICIÓN Y DISEÑO
OBLIGATORIO
C. SELLTIZ - M. JAHOgA - M. DEUTSCH
S. W. OK
24 copias
(0)
MODOS DE INVESTIGACION .
EN LAS RELACIONES SOCIALES
SEPTIMA EDICION
INSTITU.L, DE
ESTUDIOS SOCIALES
020501002
EDICIONES RIALP, S. A.
MADRID '
Material disponible en los Servicios del CECSo

www.serviciosdelcecso.blogspot.com / sercecso@fcs.edu.uy
Fotocopiadora: 2410 6720 (208 / 218)
Por trabajos: pedidosercecso@gmail.com
Cantina & Cafetería: 2410 6720 (220)
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 171
cias sobre la natiraleza de un objeto, persona o grupo; sus

evaluaciones; ten encias a observar con relación' al mismo
en determinado sen *do; opiniones sobre las medidas adecÍa-
das a adoptar con respecto al mismo. Podrían también in-
cluirse en esta definición otras características de la actitud
tales como la importancia del objeto para la persona, el gra-
do de diferencia de su opinión del objeto, su perspectiva tem-
poral con relación al mismo, etc. Habiendo así especificado
la definición de actitud, el investigador se hallará en disposi-
ción de formular su problema de investigación de una forma
/más clara decidiendo en qué aspectos desea centrar su aten- -
ción investigadora. Puede desear la determinación de sí la
estancia en Estados Unidos altera las creencias de los visi-
tantes ingleses sobre la forma de vida en América, o si ello
conduce a cambios en el grado en que desean una generaliza-
CAPÍTULO 5 ción acerca de los estadounidenses, o los cambios en el gra-
do de su simpatía y respeto por los americanos, o en su eva-
ALGUNOS PROBLEMAS GENERALES DE MEDIDA luación de la política exterior de Estados Unidos.
Tal especificación de qué se va a medir es un requisito
Medida... es algo más que la pedante bús- previo a la decisión de como va a ser medido, es decir, al
queda de una colocación en la serie decimal. establecimiento de procedimiento de medida. Un procedi-
Sus aspectos vitales y absorbentes emergen miento de medida consiste en una técnica de recogida de da-
más claramente quizá cuando algo que nunca
ha sido medido se convierte en una cuestión tos más una serie de normas para la utilización de estos
de medida. O mejor todavía, algo que siempre datos. El objetivo de las diversas técnicas de recogida de da-
ha sido considerado como inconmensurable. tos es el de obtener evidencia comprobada que sea significa-
S. S. STEPENS tiva para las preguntas de investigación que van a ser for-
muladas. (Como ya hemos destacado en los capítulos prece-
dentes, es preciso un período de investigación exploratoria
La cualidad de la investigación no depende solamente Con objeto de averiguar qué clase de• datos contienen la pre-
de la adecuación del esquema de investigación, sino también sdel gunta o constituyen indicativos adecuados de los conceptos.)
resultado de los procedimientos de medida empleados. Algo) El propósito de las normas adjuntas es el , cle facilitar el uso
básico en toda medida significativa son la formulación adecua- de estos datos preparando determinadas afirmaciones acer-
da de las cuestiones a investigar y las definiciones claras de ca de las características de los fenómenos de los cuales se
los conceptos supuestos. En otras palabras, debe conocerse en supone que son relevahtes los datos. Los procedimientos de
primer lugar qué es lo que se quiere medir. medida constituyen las «definiciones de trabajo» de los con-
Vamos a suponer que estamos frente al problema de de- ceptos ,utilizados en el estudio, tal como se expuso en el ca-
terminación de los efectos de una visita a los Estados Uni- pítulo 2.
dos en la actitud de turistas británicos. Para asegurarnos da- Los datos_pueden ser recogidos de muy ._diversas formfis :
tos relevantes, debemos saber qué cuestiones deseamos inves- por observación de conducta, . -ptif7c-i- ies-tikonarios_u_nntrevis,-
tigar. La especificación de tales cuestiones requiere, entre otras tas,__ por técnicas proyectivas, por el_examen-cle-informes exis-
cosas, la consideración del concepto de actitud. Podrían in- tentes. Las reglas para la utilización de tales datos como me-
cluirse en la definición de actitud varios aspectos, p. ej., creen-
172 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 173
dios de elaboración de afirmaciones acerca del fenómeno en personas clasificadas como «favorables» en una medición fue-
el que se está interesado pueden ser elaboradas dentro de ran clasificadas como «no favorables» en una segunda medi-
la misma técnica de recogida de datos, o puede ser lleva- ción realizada en un tiempo y bajo unas circunstancias en
da a cabo como un complemento de la misma. Un cuestio- que no hely razón para suponer que sus sentimientos habían
nario de actitudes que facilita una puntuación que sitúa a cambiado.
una persona dentro de una escala de «favorable-no favora- Además de ser dlido y seguro, un instrumento de medi-
ble» no solamente provee la recogida de datos necesarios da debe ser capaz de hacer ,clionG'oug lo suficientemente
para una estimación de la posición de la persona, sino que finas para el propósito que sirve. Los instrumentos difieren
también incluye las normas para realizar tal estimación. Por en la especificidad o exactitud con t
_gatan-de localizar la
otro lado, una entrevista no estructurada sobre el mismo te- posición deTü».k1uier persorIa--cOn respectó- a -las—cáráaérígz
ma puede reunir los datos necesarios, pero un sistema codi- ticas que van a medirse. Así, p. er; einstrur0gito de me-
ficado (es decir, una colección de reglas para la utilización dida muy burdo podría distinguir so ente dos posiciones
de los datos) se precisa para la estimación del grado de la en las evaluaciones de los visitantes con relación a los ame-
actitud favorable o desfavorable de la persona. La discusión ricanos: «favorables», «no favorables». Un instrumento algo
en este capítulo y siguientes aclarará esta distinción. más finaméñfe-ginduado. dráfirigt-lia entre «favorables», «neu-
trales», «no favorables»; una técnica todavía más finamente
Las técnicas de recogida de datos y las normas para su;
graduada distinguiría varios grados de «favorable» y «no fa-
utilización, para ser útiles, deben ofrecer una información, vorable». Si nuestro instrumento de medida solamente pudiera
que no solamente sea significativa, sino libre de errores sis-I distinguir- dos categorías, nuestro estudio sería incapaz de
temáticos; es decirja._ debe producir una._info ida.11 revelar muchos grados socialmente importantes en las acti-
Supongamos que eri To'lle - los -visitantff ingleses se tudes; p. ej., de «no favorable» a «neutral» o viceversa, o de
trata de centrarnos en sus evaluaciones con respecto a los
«ligeramente favorable» a «marcadamente favorable».
estadounidenses. Un estudio que utilice técnicas que lleven, Además de la exigencia de la capacidad de hacer distin-
por ejemplo, a que una proporción sustancial de personas con
ciones sutiles, los objetivos de la investigación a menudo pi-
sentimientos favorables sea clasificada como no favorable, no den que los procedimientos de recogida de datos nos permitan
puede presentarse con conclusiones aceptables. determinar cuánta gente difiere en una determinada ca-
Un buen procedimiento de medida debe también ser se- racterística. En una de las secciones finales del capítulo que-
guro; es decir, medidas independientes pero comparables del dará aclarado que tales afirmaciones pueden ser hechas de for-
mismo objeto (o actitud, o lo que sea) debería proporcionar lila significativa, solamente si los -procedimientos de medida
resultados análogos (siempre que, por supuesto, no haya ra- , abarcan escalas que tienen unidades iguales así como otras ca-
zón para estimar que el objeto medido ha cambiado entre las racterísticas determinadas.
dos mediciones). Una vara de medir, pongamos por caso, es Un último punto debe ser destacado. La medida de una
un instrumento altamente seguro. En circunstancias ordinarias, persona, objeto, acontecimiento; etc., e ide im_atri :
una mesa que mide 90 centímetros de larga un día, medirá 90 bio determinado presupone que la—p-e— rsona o el objeto_ pue-
centímetros el día siguiente, y el siguiente;• las variaciones den ser descritos adecuadamente en términos de tal atributo.
parecen ser desechables por diversos motivos prácticos. Sin ün- intento de medida de un atributo déterminado puede ser
embargo, una cinta métrica hecha de una sustancia elástica improcedente para algunas personas, objetos, etc. Así, por
sería insegura en extremo; la mesa puede medir 88 centíme- ejemplo, no tendría mucho sentido preguntar a una persona
tros de larga un día y 92 centímetros el próximo, según haya en qué grado es favorable al positivismo lógico si tal persona
sido más o menos estirada la cinta. De forma semejante, un no tiene un conocimiento de la filoSofía de la ciencia. Des-
instrumento establecido para medir sentimientos con respec- graciadamente, no siempre está a 11 vista si la medición en
to a los americanos debería ser considerado inseguro si las términos de un determinado atributo es o no relevante para
una determinada persona.'Especialmente en los casos de pre- Así, pues, la variación entre puntuaciones individuales con
guntas sobre opiniones 'd. :actitudes, muchas personas pueden respecto al instrumento de medida administrado a un grupo
ser inducidis -a dar-f_l
eip3- tás` en asiuitos-aceica-21erlo.wciIIKs- de sujetos procede de un número de distintos factores con-
no tienen realmente opinión o actitud. Francamente, los r - tribuyentes. Parte de la variación puede ser atribuida a ver-
sPltados de tales medidas notienen significad& guna o la daderas diferencias entre los sujetos en la característica ob-
tienen en muy escasa medida.- existe una solución senci- jeto de medida; parte de la misma representa «errores» de
lla para esta dificultid- Estando alerta, sin embargo, el in- medida. El problema básico en la evaluación de los . resultados
vestigador puede, bien incorporar a sus instrumentos de me- de cualquier medida es el de la definición de lo que han de ser
dida la previsión para asegurarse de si la medida es o no consideradas como verdaderas diferencias en la característi-
significativa para un determinado sujeto, bien .puede omitir ca que se está midiendo y que ha de ser tenido como varia-
mediciones que no parecen ser significativas para un consi- ciones debidas a error en la medición 1.
derable número de sujetos. Una vez más, un período de in- Consideremos brevemente algunas de las posibles fuentes
vestigación exploratoria puede ayudar a proporcionar una ba- de diferencias en puntuación en un grupo de personas :
se para el enjuiciamiento de si la medida de un atributo de- 1. Verdaderas diferencias en la característica ue se inten-
terminado es significativa para un grupo dado. ta medir.—En lrgituación ideal de medidas, todas las diferen-
cias en puntuación entre individuos serían debidas a sus dife
repelas en la -característica que se in-tent
á_pe
-- dir..--Por ejemplo,
VARIACIONES EN PUNTUACIÓN EN LOS INSTRUMENTOS DE MEDIDA si se - tratara de medir la actitud hacia la religión, todas las
diferencias. en puntuación deberían ser achacadas a las diferen-
La medida siempre tiene lugar en una situación más o me- cias individuales, en su actitud respectiva; ninguna de las
nos compleja en la que innumerables factores pueden afectar diferencias reflejaría variaciones casuales o efectos de otras
a las características objeto de medición y al proceso de medida. actitudes.
Se intenta controlar o mantener constante la más importante 2. Verdaderas diferencias en otras características relati-
de estas variables y se espera que la variación de los factores vamente estables del individuo que afectan su puntuación.
no controlados operará de modo que eliminará los efectos del Pocas son las técnicas disponibles al científico social que le
otro. La afirmación de que un cuerpo tiene una cierta lon- provean de medidas «puras» de cualquier característica de-
gitud, -p. ej., es exacta solamente en relación -Con-
, Miirpresun.: terminada. Variables generales como la inteligencia, educa
la serie de condiciones, entre otras características del sistema ción, información, status social y diversas características de
(temperatura, velocidad, etc.) de las cuales la longitud esun la' personalidad «contaminan» frecuentemente los resultados
atributo. En el grado en que estas características estén rela- de un cuestionario deactitud o la valoración de un observa-
cionadas con la longitud y en el grado en que cambien, puede dor. Es más, la puntuación de los individuos en el re-
esperarse, desde luego, que el instrumento de medida y la flekrán no _solamente las -di rencias en a cterística_sffic
longitud del objeto sean medidos para el cambio. De modo se está midiendoi. sino tabi aidifcias en otras
semejante, la medida de cualquier característica psicológica o Así, p. ej., EdwaYds—(1957b), ha mostrado que el
social presupone una serie constante de condiciones conoci- número de personas que aceptan o están de acuerdo con una
das entre los factores relevantes de la misma y del proceso determinada afirmación en un cuestionario está altamente re-
de medida. Desgraciadamente, los conocimientos e intentos de lacionada con «el grado de deseo social» de la posición pre-
control raramente son totalmente adecuados. Como consecuen- sentadaez--IF-ft" i í,--lk
las diferencias en puntuaciones clan
cia, los resultados de la medida reflejan no solamente la carac- instrumentos que preguntan al cuestionado que indique su
terística que es medida, sino también otros factores descono-
cidos que afectan a las características objeto de medida y al 1 Véase THORNDIKE (1949) para un tratamiento más detallado de
proceso de medida. este ensayo sobre las fuentes de las variaciones en puntuación.
176 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
agrado o desagrado con afirmaciones sujetas a consideraciones sujeto. Si las situaciones de medida varían de persona a per-
de deseo social pueden-reflejar diferencias en el deseo de ad- sona o de una medición a otra, una gran parte de variación
mitir que se mantienen posiciones «indeseables», así como di- en puntuaciones parece resultar de estos factores, aparte de
ferencias en la característica que el instrumento trata de me- las diferencias verdaderas entre los individuos con respecto
dir. Así, p. ej., las puntuaciones en un «test» de actitud pue- al atributo que se mide.
den ser influidas no solamente por las actitudes individuales 5. 21 ec a variaciones en la administra.
i erencias debidas
hacia el objeto en cuestión, sino también por el deseo o aver- ina ua
iziárs.—Los m é to d os y tuuformes de administra '-
sión ck la wwmitesta a admitir que i- ción de un instrumento de medida pueden contribuir a las
nion es nente admitid as_com_o_
--- impopu
1"---W.--
ares,D e modo variaciones en puntuación. Los propios realizadores de la en-
semejante, las diferencias en puntuaciones en «tesis» de !per- trevista ued • . . 're. un •egs . . orma u. .
sonalidad» pueden reflejar diferencias en el deseo de admitir alterar el orden de las mismas, omitir preguntas, etc.;
que se tienen sentimientos generalmente considerados «neuróti- de tal forma que una entrevista no sea comparable con otra,:
cos» o formas de comportamiento socialmente repudiadas, así, Un encargado de aplicar el «test» con escasas cualidades de
como diferencias verdaderas en los sentimientos y conductas amenidad puede dar un giro distinto a la entrevista; un encarga-
sobre las que son interrogados los sujetos. do de la clasificación que se halle fatigado puede mirar super-
3. Diferencias debidas a factores personales transitorios.— ficialmente las respuestas en vez de leerlas detenidamente para
Diversos factores personales, tales como humor, iiirglTialud, su clasificación ; un observador cansado puede no ser ca-
ajuste mental, grado de distracción, etc., pueden variar inclu- paz de anotar el proceso constante de cambio de un grupo.
so en un corto espacio de tiempo. En la mayoría de los casos, Todas estas variaciones en la utilización' de un instrumento de
podría esperarse que el estado de la persona ejerciera su in- medida pueden afectar en gran modo el grado de consistencia
fluencia sobre las respuestas primordialmente a través de la con que un determinado clasificador, observador, etc., ordena
forma en que define su situación de medida. Así, p. ej., si y clasifica las respuestas de distintos sujetos y la consistencia
está fatigado, su respuesta a la situación de medida puede en clasificación de un observador, ordenador, etc., a otro.
ser : «Voy a despachar esto lo más pronto posible; es dema- Por un lado la situación en que la medición es realizada y,
siado aburrido preocuparse de ello ahora.» Bajo las condicio- por otro, el método de administración, pueden influir en la
nes adecuadas de motivación y confianza, estos factores per- orientación con la que responde el sujeto, p. ej., si responde
sonales pasajeros pueden tener a menudo efectos mínimos. o no en términos de lo que cree ser cierto, o de lo que él
, Los instrumentos de medida difieren en el grado en que piensa que el entrevistador o clasificador considera la res-
su aplicación es afectada por factores personales pasajeros. ' puesta «buena», etc.
La utilidad de un instruinento para medir ciertas caracterís- 6. pji erencias debidas al Mtodo de muestreo de los
ticas distintas a estas . pasajeras decrece, por supuesto, con el ítems.—Cualquier instrumento de medida afectá -
grado en que las puntuaciones del mismo son influidas por mente a una sola muestra significativa d¿ la característica ob-
tales factores. jeto de medida. Así, un cuestionario de actitudes contiene so-
4. 1219_p.enias_debidas a fç res !de situación».—Las va-
. lamente unas cuantas preguntas de un universo de preguntas
riaciones en la situación en que la me ida tiene lugar, juegan relevantes que hubieran podido ser incluidas. Si concebimos
a menudo un importante papel contribuyendo a las diferencias una puntuación en términos amplios, como medida de una
en puntuación entre un grupo de sujetos. Así, p. ej., una entre- actitud, y no en sentido estricto, como la medida de un cues-
vista con un ama de casa puede quedar muy influida en sus tionario determinado, es evidente que las variaciones en acti-
resultados por la presencia del esposo. El anonima la fal- tud tal como han sido medidas por distintos cuestionarios se-
ta del mismo en la situación de medida, ll_presencia o fa ta rán dependientes, en parte, de la naturaleza de la muestra de
de ambiente de distensión, la seriedad o lieerezl, las distrac- preguntas incluidas en los cuestionarios. Así, p. ej., en un cues-
ciones diversas, etc., todo tiende a afectar las respuest as tionario referido a las actitudes hacia los negros, las previa-
12
tas incluidas puede ocurrir que sean aquellas en que una de- semana de clases», otros como «la última semana», es decir,
terminada persona está más dispuesta a responder favorable- durante las vacaciones. La sencillez, la concreción, y un alto
mente de como lo haría en otro cuestionario elaborado con grado de determinación son circunstancias deseables en los
una muestra distinta de preguntas. instrumentos de medida 2 .
Es obvio que, si otras cosas son iguales, un cuestionario 8. Diferencias debidas a factores mecánicos.—Circunstan-
con una sola pregunta parece ser una muestra menos adecuada cias tales como la rotura de lápices o bolígrafos, respuestas
del universo total que otro cuestionario con treinta preguntas. colocadas en casillero distinto, instrucciones poco legibles,
De modo semejante, las clasificaciones basadas en unas pocas falta de espacio para anotar enteramente las respuestas, jue-
observaciones o realizadas por un observador solo no son tan gan su papel dificultando un funcionamiento más efectivo del
seguras como las clasificaciones basadas en muchas observa- instrumento de medida. Muchas fuentes de error pueden ser
ciones realizadas por varios observadores. El aumento del nú-' eliminadas mediante la adecuada atención a los factores me-
mero de preguntas (siempre que las preguntas añadidas seani cánicos en el momento de la presentación del estímulo y la
igualmente adecuadas al propósito del cuestionario dado), o de recogida de respuestas. Es imposible redactar una lista de los
la cantidad de material relevante sobre el que la puntuación muchos detalles mecánicos que pueden intervenir; y van desde
se basa, hace que la variación en puntuación atribuible a estas4 la forma de presentación del cuestionario al tipo de letra, o
causas se haga menor. errores de imprenta, etc.
7. Diferencias debidas a la falta de claridad del instrwl 9. Diferencias debidas a factores en el análisis.—Con fre-
cuencia se desdeña la posibilidad de errores en lbs procesos
de puntuación, tabulación, análisis, tabulación estadística, etc.
Estos procesos pueden ser fácilmente comprobados, pero, caso
de no hacerlo, pueden introducirse en los datos grandes dife-
ras en la característica qje s intenta medir. Con frecuencia! rencias en puntuación debidas a tales errores.
laícategoÉtas en un instrumento de clasificación o de obser- Estos son. piles. algunos de los nrincipes factores ql_ te
vación son complejas y ambiguas; distintos ordenadores u ob- influyen en los resultados obtenidos a través de_cualouier
servadores pueden interpretar las categorías de forma distinta proceso de medida. Un examen de la lista aquí expuesta in-
y asignar respuestas semejantes a distintas categorías. Las dica' varias fuentes de «error»—tales, las diversas influencias
preguntas de la entrevista pueden ser tan largas, o redactadas sobre la puntuación más que la influencia sobre la caracterís-
en una forma tan compleja, que algunos entrevistados pueden tica que se intenta medir. Es ya tradicional clasificar los erro-
no entenderlas; las respuestas de estos sujetos apenas pueden res en constantes- (sistemáticos o de sesgo) y de azar (o varia-
constituir una indicación adecuada de la característica o acti-i 611_11 fin error constante es -@ -in~Cido in- la --riiaida—p—r o
tud a la que las preguntas están referidas. Palabras tales como algún factor que sistemáticamente afecta a la característica
libertad de empresa o libertad simplemente, que están emo- objeto de medida o al propio proceso de medida. Los factores
cionalmente coloreadas o que tienen connotaciones especiales semejantes a los tratados en el apartado 2 de este capítulo son
no asequibles a toda la gente a quien se aplica el cuestionario, de este tipo. Cuando un factor así pasa desapercibido, sus
pueden mostrar reacciones distintas no directamente relacio- efectos no son tomados en consideración a la hora de evaluar
nadas con la característica que el instrumento quiere medir. los resultados de la medida. El error de azar es debido a aque-
Incluso preguntas aparentemente sencillas pueden ser confusas llos aspectos pasajeros de la persona, de la situación de medi-
si el contexto es ambiguo. Tomemos, p. ej., la siguiente pre- da, del procedimiento de medida, etc., que parecen variar de
gunta 'utilizada en un estudio de una comunidad estudiantil: una medición a otra, aunque la característica que se intenta
«Durante la última semana, ¿visitaste la casa de algún pro-
fesor?» Si la entrevista tuvo lugar inmediatamente después 2 Esta afirmación no es aplicable cuando la característica que el in-
de una semana de vacaciones, algunos entrevistados pueden investigador desea medir es precisamente la forma en que un sujeto inter-
preta una situación ambigua—como es el caso de muchas técnicas pro-
terpretar la pregunta como significando «durante la última yectivas (véase capítulo 8).
MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA . 181
180
medir no haya cambiado. Un error de azar se muestra en la sus respuestas y, sin embargo, hay una gran presión sobre los
falta de consistencia de mediciones repetidas o equivalentes de niños con prejuicios para que den respuestas exentas de pre-
la misma persona, objeto, suceso, o del mismo grupo de perso- juicio. Y así, la puntuación de un niño sin prejuicios pt de u)
nas, objetos o sucesos. Como se verá en las siguientes seccio- reflejar con bastante exactitud su verdadera actitud, en
nes de este capítulo, la estimación o validez se hallan afectadas que la del niño con prejuicio puede ser alterada en un .grado
por ambos tipos de errores; la estimación del grado de con- desconocido, a partir de su posición verdadera con respecto
fianza sólo tiene en cuenta—generalmente—los errores de al problema planteado en el «test». Como consecuencia, am-
azar. bos niños tenderán a asemejarse—exentos los dos de prejuicio.
La administración repetida del «test» o de protocolos seme-,
LA VALIDEZ DE LAS MEDIDAS jantes bajo las mismas condiciones no producirán el falsea-
miento de las respuestas de los niños con prejuicios y que apa-,
Ciertas preguntas básicas deben ser hechas a cualquier ins- recerían como errores de azar, puesto que de nuevo habría
trumento de medida: ¿Qué es lo que mide? ¿Son relevantes una desviación de las respuestas en la misma dirección. Su-
los datos que proporciona para la característica en que se está pongamos ahora que se desea utilizar el «test» para evaluare
interesado? ¿Representan las diferencias en puntuación ver- la eficacia de un curso en relaciones humanas, comparando
daderas diferencias en las características que se intenta medir las puntuaciones de los niños que han asistido al curso con
o también reflejan la influencia de otros factores? un grupo de control que no lo haya hecho. Si los dos grupos
La validez de un instrumento de medida puede ser defi- de niños—los que tienen prejuicios y los que no los tienen—
nida como el grado en que las diferencias en puntuación re- dan respuestas catalogadas como «no prejuicio», el «test» no
flejan verdaderas diferencias entre individuos, grupos, o si- puede revelar efecto ninguno producido por el curso.
tuaciones en la característica que se pretende medir, o dife- ¡ Teniendo en cuenta que, en general, no sabemos la verda-
rencias ciertas en el mismo individuo, grupo o situación de dera posición de una persona con respecto a la variable que
una ocasión a otra, más que los errores constantes o de azar._ tratamos de medir, no hay una forma directa de determinar
Algunos de los factores hasta aquí tratados como contribu- la validez de la medida. (Si hubiera otra fuente de informa-
yentes a las variaciones entre puntuaciones individuales 'pue- ción como posición verdadera con respecto a la variable, con
den conducir a errores constantes. Es obvio que las diferen- frecuencia no sería necesaria otra medida de la variable, a
cias ciertas entre individuos en características permanentes ' menos que el procedimiento de medida utilizable fuese ex-
distintas alas medidas por el «test», que afectan a las pun- tremadamente inaccesible o caro o de cualquier otra forma
tuaciones obtenidas con el instrumento de medida, serán cau- nada práctico o inadecuado en su uso.)
sa de errores constantes. Así, también, pueden afectar los – A falta de un conocimiento directo de la verdadera posi-
factores del propio instrumento o de las situaciones en que ción del individuo con respecto a la variable que se está mi-
se utiliza. Así, p. ej., los procedimientos de medida que descan- diendo, la validez de un instrumento se mide por el grado
san principalmente en los procesos intuitivos complejos de ob- en que sus resultados son compatibles con otras evidencias
servadores han introducido con frecuencia errores constantes /significativas. Que sea evidencia significativa depende de la
a través de la percepción selectiva, de la repetición, o del naturaleza y propósito del instrumento de medida. El objetivo
informe. de algunos «tests» es proporcionar una base para prediccio-
Téngase en cuenta que los errores constantes que aquí se nes específicas acerca de los individuos; p. ej., si tendrán éxi-
discuten se refieren a puntuaciones individuales y, por im- to en un cierto tipo de trabajo, si necesitan o no ahora o más
plicación, a comparaciones de puntuaciones de grupos de pun- adelante tratamiento psiquiátrico, etc. Otros «tests», sin em-
tuación. Así, p. ej., supongamos que se administra un «test» de bargo, no son utilizados de esta forma. Aunque están desig-
prejuicio racial a niños de un sector de la población en que el nados para medir determinadas características de los indivi-
prejuicio es mal visto. En esta situación, existe comparativa- duos, no conducen a predicciones definitivas acerca de 'cómo
mente poca presión entre los niños sin prejuicios para falsear los individuos actuarán en determinadas situaciones—al menos
teniendo en cuenta el estado actual de los conocimientos. Esta Así, p. ej., los «tests» que requieren que el individuo\eproduz-
, distinción en el objetivo .de los «tests» lleva a una diferencia ca un esquema complejo por medio de conjuntos, han mostra-
en el tipo de evidencia que se considera significativa para la do ser útiles para identificar en los individuos la habilidad
estimación de la validez. Y.n el caso de los «tests» cuyo obje- de reproducción de esquemas por sí misma; el individuo se
tivo es proporcionar una base para las predicciones en térmi- halla interesado en la realización del «test» solamente como un/
nos de algún criterio determinado (como el éxito en determi- índice de posible lesión cerebral. No necesita saber por qu¿
nado trabajo), la evidencia sobre la posición del individuo con la realización del «test» es un índice eficiente de la-caracterís-
respecto a tal criterio provee de una base de estimación de tica en que se halla interesado
la validez del «test». La ,investigación de la. , validez en estos Lo que es esencial en este intento de validación es que
términos puede ser descrita como pragmática; la validez es haya un criterio válido y razonable con el que las puntuacio-
juzgada en términos de la exactitud de las predicciones hechas nes del instrumento de medida puedan ser comparadasrff
sobre la base de los resultados del «test». general, la naturaleza de las predicciones y técnicas disponi-
Los instrumentos designados para medir características bles para su comprobación determinarán qué criterios son sig;
que no conducen a predicciones específicas no pueden ser eva- nificativos. En la validación del «test» de reproducción de es-
luados tan directamente. Debe buscarse otra evidencia _para quemas como índice de lesión cerebral, p. ej., los criterios evi-
proporcionar una base para juzgar si el instrumento:In- 2e ade: dentes serían otros índices ya bien determinados de lesión ce-
cuadamente o nó—el-conc-epp:5- qué:se mientamedir. Este pro- rebral, o bien las comprobaciones post mortem, en el grado en
cedimiento menos directo ha sido descrito como alidez c ns-' que puedan ser utilizadas. En el problema antes suscitado, de
tructiva. Estos medios de obtención de la validez se tan en identificación de los individuos necesitados de tratamiento
ias secciones que siguen 3. psiquiátrico o que parecen necesitarlo en el futuro, el criterio
más adecuado actualmente a la mano es probablemente el de
Validez pragmática diagnóstico independiente realizado por psiquiatras compe-
tentes, pero no se trata de un criterio infalible. Si el objetivo
Un intento de validación es la pregunta : ¿Es útil este ins- de un «test» es la predicción del éxito en los estudios en un
trumento de medida? ¿Puedo tomar decisiones con su ayuda centro determinado, el criterio debería ser las formas de gra-
mejor que sin ella? El investigador puede desear, p. ej., dis- duación del Centro en cuestión. Si el propósito es la predic-
tinguir entre individuos que, al tiempo de la medición, están ción del éxito laboral, bien puede confiarse en las calificacio-
«bien ajustados» y aquellos necesitados de tratamiento psi- nes de los supervisores de la profesión, como criterio, a me-
quiátrico. Un «test» que ayude al investigador a distinguir a ...nos que el trabajo sea de tal especie que pueda asegurar más
los individuos que difieren en su «status» esente se dice informes objetivos en cuanto a cantidad y calidad de trabajo
que, tiene zdez concurrente. Por otro a o, e mvestilail realizado.
puede desF1 predicción de qué individuos parecen estar Por supuesto que, en el plano ideal, debería ser perfecta-
necesitados de una futura acción psiquiátrica. La idoneidad mente válido y seguro el criterio por el que se comnaran las
del «test» para distinguir a los individuos que diferirán en el puntuaciones del instrumento de medida. La comprobación de
futuro es conocida con el nombre de validez predictiva. En am- predicciones contra un criterio que puede ser irrelevante, in-
bos casos, el intento de yaligarión adecuado, o inseguro, proporcionan una evaluación dudosa del
En el intento pragmático de validez, el interés se centra procedimiento de medida. En la práctica, no obstante, el in-
en la utilidad del instrumento de medida como indicativo o vestigador halla con frecuencia que no existe ningún criterio
previsor de alguna otra conducta o característica de la persona. totalmente comprobado; selecciona el que le parece más ?de-
3 Para el conocimiento de otros procedimientos distintos, si bien 4 No obstante, desde el punto de vista del avance del conocimiento
relacionados, descriptivos de intentos de validación, véase Cronbach científico, como algo distinto a la capacidad de hacer predicciones
(1949), Cronbach y Meehl (1955) y Recomendaciones técnicas para útiles, se puede estar interesado en saber por qué es útil el "test". Este
Tests Psicológicos y Técnicas de Diagnóstico (1954). punto será tratado con más detalle más adelante.
cuado y trata de tener en cuenta sus limitaciones y, si es po- este tipo. Cronbach y Meehl (1955), que primere acla-
sible, complementarlo con criterios adicionales. raron el concepto de validez construcdéltacar - on que- lis
El desarrollo de un criterio adecuado para la comprobación difiiacTon-es de -tales construcciones -cófársta- e-n- --- es dé-
de predicciones y, por tanto, la evaluación de la utilidad de iéries-cre-própóSitiónes acertia-déais relaciones _con otras vi---
los instrumentos de medida es una parte importante de la in- riablestra.s..construcciones_- o-Coinizortamientos_ci 't ectamente .
vestigación, que raras .veces recibe el tiempo o la atención que _observables. Así, por medio del examen de validez construc-
merece. Frecuentemente, aunque no exista un criterio perfec- tiva, eládécuado formular preguntas tales como las siguien-
to, la seguridad y validez de los criterios disponibles pueden tes: ¿Qué predicciones podrían hacerse, sobre la base de esta
ser mejoradas. En un estudio en que los datos de los super- serie de proposiciones, acerca de las relaciones con otras va-
visores son utilizados como criterios para la validación de un riables de puntuaciones basadas en una medida de esta «cons-
«test» predictivo del éxito en un determinado trabajo, p. ej., trucción»? ¿Son las mediciones obtenidas con la utilización
distintos supervisores pueden utilizar diferentes bases de jui- de este instrumento consistentes con estas predicciones?
cio de tal forma que sus clasificaciones no sean comparables. Tres aspectos estrechamente relacionados deberían ser des-
La seguridad y validez de sus clasificaciones pueden aumentar tacados en conexión con estas preguntas. Primero, las predic-
por medio de una cuidadosa especificación de las clases de ciones son de una naturaleza tal, y sirven una función en cier-
comportamiento que van a ser consideradas en la clasifica- to modo distinta, de aquellas supuestas en la determinación
ción de la realización del trabajo, por la claridad en la defi- de la validez pragmática. Consideremos una predicción sobre
nición de los puntos en las escalas de clasificación, por la cómo votarán los individuos en una elección nacional. Un
oferta de un período de entrenamiento en el que dos o más instrumento de medida puede tener el objetivo especifico de
supervisores clasifiquen o puntúen a los mismos individuos y hacer posible esta predicción. En este caso, el interés se halla
luego discutan las discrepancias en su clasificación, etc. Ge- en la exactitud de la predicción, y no es -necesario prestar aten-
neralmente, la medición conjunta de las puntuaciones por dos ción a los atributos psicológicos envueltos en la relación entre
o más observadores que están puntuando a los mismos sujetos el comportamiento individual en el «test» y su comportamien-
tiende a aumentar la seguridad y la validez 5 . to en el momento de votar. Sin embargo, una redicción acerca
de la votación pede Iambién estar en re aci n con el examen
Validez constructiva d-e-Tá- validez constructiva de un «test» de conservadurismo
-
ea.lítico. Keitif el razonannento es como sigue : «Creo que este

Con frecuencia, sin embargo, el investigador se halla in- «test» --mide el Conservadurismo ..(tin--a « construcción ») —bacía
teresado en la realización del «test», no como una simple pre- la generalmente aceptada de -li -jaOsit-i6n- cle los_parti:
dicción de -comportamiento, sino como una base para inferir Vos-políticos de Estados Unidps, -debp_suponer que -in gente
el grado en que el individuo posee alguna característica que Clasificada como menos conservadora en este «test» probable: -
presumiblemente se refleja en la aplicación del «test». Dicha mente Votará «demócrata»; aquellos -cláSificados como más
característica no es algo que puede ser señalado o identificado conservadores, votarán «republicanos». No ótenfff---WEI e, i
con alguna clase específica de comportamiento; más bien, es necesarianiente-qUe suponer que la correlación entr6-1i- pun-
una abstracción, una construcción 6 . tuación del «testa y el comportamiento en_ el momento de la
Muchas de las medidas utilizadas en las ciencias sociales votación sea muy alta, porque está comprobado _que yotar_por
operan con «construcciones». Las medidas de inteligencia, de uno u otropartido no es equivalente a ser más o menos con-
actitudes, de autoritarismo, de introversión-extraversión, de ser-yací-oí. L
so demócratas y republicanos no repre-
ansiedad, de modelos más generales de personalidad, son de sentaii-claramente una menor o mayor tendencia conservado-
ra; en algún aspecto el partido republicano es menos conser-
Para una posterior discusión de los métodos de mejora de la vador que el demócrata. Es más, incluso si los dos partidos
fiabilidad de las puntuaciones, véase el capítulo 10.
6 Véase el capítulo 2, para una discusión de los conceptos y cons- fuesen identificables de forma inequívoca en este aspecto, po-
trucciones, términos 'que se han usado aquí indistintamente. drían esperarse otras influencias además de la tendencia con-
servadora de cada individuo para penetrar en la determinación relación con otras variables, y los cambios en e instrumento
de su voto: tradición familiar, religión, status socioeconómico, ,dejledida-. Así,- p. ej., un--núni~v e— striáci• - centradas
tendencias en el voto de .sus amigos, esperanzas de beneficios en la hipótesis de que la asociación personal • miembros de
determinados si uno de los partidos gana. un grupo étnico distinto al propio tiende a llevar a la adop-
Segundo, en el caso de la validación pragmática, la capa- ción de actitudes más favorables con distintos res4iltados. Un
cidad de la medida para distinguir en términos de un -solo análisis de un determinado número de estos estudios indica
criterio hacia el cual se dirija es el «test» de su validez; en que las diferencias en resultados pueden ser tenidas-en: cuenta
el caso de validación e ceptQ, todas las prediccionew- en parte como términos de los aspectos específicos de la ac-
l se harían sobre la e de la serie de -Práposiciones en las que

el concepto éstlitip- iiés-ta Wéri -errhay.or número posible de-
'ellas) entra en Ta consitleráéión.iilidez".. -Áir,én
la medida-de la tendencia conservadora, además de predecir
titud afectada por los distintos instrumentos de medida, y
sugiere que la hipótesis podría ser - perfeccionada en el sentido
de especificar qué aspectos de la zietitud son más propicios a
quedar afectados por asociación personal.
si un individuo votará d--- . ernTicrata o republicano, pueden pr-1- Glm~r_Eiske (1959), sugerido que la investigación
decirse las preferealis-para . l.os candidatos (fe ull-Dis7 de viudez conceptual puede ser ec n ánlArrinlin-
. e-n-
qdo político deteranado; p. ej., podría predecirse' que los táml4:1a- atención hacia- la-ádé-cniEliide- medidák-
›rekubliciriCii75litstricad6s como menos cólítétliadóreren- a septo en cuestión, antes dé Iii- ce
—riii-Wrisus relaciones con
arliTói.-&-c:ándidato- détériti
« test il 'se- in-cl-iii- llos Itras-vTáriabies. Ambos o
rrclases-de
catalogadós -Coniiiiiiás -Cónlervadores, otrólrarididato. §_e_x_o_-. evidencia' acerca de la medida son necesarias antes que se jus-
drían también hacery_ comprobar predicciones. acerca , de las' tifique con el examen de las relaciones con otras variables:
-relaciones 'con sicitus suigzecon-ó-Mico, ed_iticacid-n'"Watridé."-
. s. Jeide nçi4eque distintas medidos drjo rnnoTt Ppvan a
con respecto a--dertirinipados.,pull - ii-a.--S1 fracaso en Coiri Jrnar r_gaultacks semejwites, y(2pa evidencia de que el conefflpto til
cualquiera"de las predicciones pondríj7P-t7G de juicio, por c91119_ha_silló medido pue -ser-di.ferenciaglo dg_ otros concep-
supuesto, la validez .de•la medida o de las hipótesis ..que la t% ,Con objeto de asegurar tal evidencia, debe medirse el
mantienen. Sin embargo,' aunque cada• una de las correlaciones concepto en cuestión por dos o más procedimientos; debe
se revelase como baja, su efecto acumulativo serviría para también medirse la característica o características de las que
mantener la validez. del- «test» y su teoría subsiguiente. - desea diferenciarse el concepto, utilizando los mismos méto-
Tercero, el examen de la validez de concepto supone la dos generales que ha aplicado a su concepto central.
'validación no solamente del _iiistrumentó7dj medida. sino de Por. ej., Burwen y Campbell (1957) estaban interesados en
- ca. Si las predicciones no se confirman,
sffil---
lá téóili-C-i-Iii- 1-111- una hipótesis común a distintas teorías psicológicas—la de que,
--el'investigár61.o tener una guía clara de si el fracaso 'sobre la base de experiencias primeras dentro del seno de la
se halla en el instrumento de medida o en la teoría. Conside- familia, un individuo desarrolla una actitud generalizada hacia
remos, p. ej., un estudio centrado en la hipótesis de que la las personas representativas de autoridad. Antes de intentar
asociación personal con miembros de un grupo étnico distinto estudiar la relación entre «actitud hacia personas representa-
al propio tiende a llevar a actitudes más favorables hacia dicho tivas de autoridad» y experiencias familiares primeras, se cen-
grupo. Supongamos que los resultados no muestran la relación traron en el desarrollo de un número de medidas de «actitud
prevista entre el grado de asociación personal y cambio de ac- hacia personas representativas de autoridad». Las clasificacio-
titud. ¿Deberá concluir el investigador que esta medida de la nes sobre estas últimas se hicieron sobre la base de cada uno
actitud no fue válida, o deberá concluir que, bajo las condi- de los siguientes métodos : preguntas desarrolladas en entre-
ciones del estudio, la hipótesis fue incorrecta? El investigador vistas acerca del padre y de los actuales oficiales superiores
probablemente sería inducido a reexaminar la «actitud concep- (los entrevistados eran reclutas de las Fuerzas Aéreas); una •
tual» y el conjunto de proposiciones que le llevaron a esta pre- lista de rasgos para ser comprobados como descriptivos del
dicción determinada. El resultado puede ser una mejor preci- padre y del superior inmediato; descripciones escritas sobre
sión en el concepto, con hipótesis ifirlS derálladaráta~7 el carácter de fotografías de personas de una edad media y
más viejos (que se intentaba presentar como simbólicas de do mutuo; por tanto, las técnicas distintas a la entrevista
personas dotadas de autoridad); historias acerca de escenas mostraron escasa correspondencia entre actitud hacia el padre
que contenían personas dotadas simbólicamente de autoridad; y actitud hacia los oficiales superiores. En tal situación, nos
un inventario autobiográfico; una actitud de estudio y super- enfrentamos con la cuestión de si los instrumentos de medida
visión; y un cuestionario sociométrico. no son válidos o si el concepto que se trata de medir (en este
Cada uno de estos métodos fue también utilizado para caso, «actitud hacia los personajes con autoridad») es falso en
medir una segunda característica : la actitud hacia las «per- algún aspecto. En este estudio, los investigadores razonaron
sonas sin autoridad» (condiscípulos, un antiguo compañero de que el número de los distintos métodos que habían utilizado
trabajo, «iguales simbólicos» representados por fotografías de proporcionaba una base para concluir que la dificultad estaba
personas jóvenes). Esta segunda característica—la actitud ha- en el concepto más que en los instrumentos de medida. Aun-
cia las personas sin autoridad—fue medida con objeto de de- que reconocieron que alguna de las medidas podría ser no vá-
terminar si las actitudes expresadas con respecto a las perso- lida, pensaron que no era legítimo afirmar que todos [los ins-
nas con autoridad eran verdaderamente específicas de tales trumentos] eran índices inadecuados del concepto «actitud
actitudes hacia las personas con autoridad o bien eran expre- hacia la autoridad». En vista del hecho de que ninguna de las
siones de actitudes hacia las personas en general. Si hubiese medidas mostraba alta correlación con otra, concluyeron que
una correlación altamente positiva entre la actitudes expresa- sus hallazgos requerían una modificación de la presunción de
das hacia las personas de autoridad y las que no la representan que cada individuo poseía una actitud generalizada , hacia la
—es decir, si las personas favorables hacia las personas con autoridad y que reflejaba su actitud hacia el padre.
autoridad también lo fuesen hacia los personajes no represen- De esta discusión parece deducirse que la validez del con-
tativos de autoridad y aquéllas no favorables hacia las no re- cepto no puede ser comprobada adecuadamente por un solo
presentativas de autoridad también lo fueran hacia las otras— procedimiento. La evidencia obtenida de un número vario de
podría concluirse que las afectadas por el primer grupo de fuentes es significativa : la correlación con otros «tests» y con
medidas no podían tomarse como actitud específica hacia los otros comportamientos, la consistencia interna de las pregun-
personajes con autoridad, sino como una actitud general ha- tas, la estabilidad a través del tiempo, etc. Qué grado de evi-
cia la gente. Por otro lado, si hubiese escasa o ninguna corre- dencia, a partir de cada una de estas fuentes, puede sostener
lación, o correlación negativa, entre las medidas de los dos la estimación de la validez del «test» depende de las relacio-
tipos de actitudes, podría concluirse que la primera serie de nes previstas en el conjunto teórico en que el concepto se
medidas obtuvo ciertamente la medida de actitudes relaciona- halla envuelto. Cuanto mayor sea el número de relaciones com-
das directamente hacia los personajes con autoridad. probadas y confirmadas, mayor será el soporte para el ins-
Como se demostró más tarde, las medidas de actitud ha- trumento de medida y para la teoría que lo sostiene.
cia las personas dotadas de autoridad mostraron tan poco
acuerdo que parecía no existía razón alguna para creer que
Relaciones entre los distintos ensayos de validación
cualquier actitud consistente había sido afectada; y así no
hubo discusión en el intento de determinar si . estas medidas Los ensayos «pragmáticos» y «de coacept9i . para la*
se referían a una determinada actitud que podía ser distingui- skni Mutuamente _excluyentm Un solo «test. o
-
da de la actitud hacia las personas sin autoridad. Las califi- instrumento de medida puede ser utilizado para un número
caciones obtenidas sobre la base de las entrevistas mostraron distinto de objetivos, y para cada propósito debe ser utiliza-
una alta correlación entre la actitud hacia el padre y la actitud do el método adecuado de validez Comprobatoria. ComiLL.m .
hacia los oficiales superiores; si este hubiera sido el único pro- sido_dotacado, la_estiqiación de la validez pragmática púe-
cedimiento utilizado, los investigadores podrían haber con- de ser incluida en la evaluación de la validez conceptual. Por
cluido que habían medido con éxito una actitud generalizada otrollado,_auicjiie
hacia los personajes con autoridad. No obstante, las puntua- doras de validez pragmática haa_sido_alcanzadas7s
ciones basadas en métodos diferentes mostraron escaso acuer- sIT:
iple del método de ensayo7errort_no hay motivo para no
investigar por qué dichas medidas son útiles—es decir, con- _Ityari
st caw, Así, un investigador interesado en el estudio del
siderando los conceptos supuestos y su relación con los cri- comportamiento de un líder de grupo puede tomar una mues-
terios variables. Tales investigaciones pueden llevar. al escla- tra de su comportamiento; uno interesado en la interacción
recimiento de los conceptos y, eventualmente, a la validación entre miembros del grupo puede recoger los cambios entre
de los conceptos de tales medidas o al desarrollo de medidas ellos.
alternadas que pueden tener validez pragmática y conceptual =Legislas, que se te en la clase de
a la vez. conducta en que el experimentador está interesado. a menu o
Pe hecho, existen buenas razones para no quedaj satisfe- ion conocidas como poseedoras de «aspecto de vufjp7 4; es
-.chos
_ con IiiWfifflire":"rnedida - -que mlade-so- ctaue lasignifiaci6n del instrumento de medi. • • .1 •
lo pragiii á ticamente7-EIT-tEarto-no- sea -entendido-e fize se intenta medir Plirfirn. • m o». Si tal pre-
sti- 'utilidad,- --
no—fi-ay seguridad de que las condicioara-e .1a s-u-néróli-él-ó1i5"jiátificada en algún casó .et- ' , nado, ello es
sean Válidas para cualquier aplicación determinada, en último caso una cuestión de opinión. Pero en la afirmación
-éñ cada aPliParíAn «nlamente /me_de prgcederse con la creen- j de esta opinión, Aeben ser tenidas en cuenta dos cuestiones
Eía ingenua que valdrá a esta .vez. Es más; en el grado en de importancia: si el instrumento mide realmente la clase
4-iie el- ensayo pragrn tico sé Ti-m-ita a sí mismo descubriendo de comportamiento que el investigador cree; 32 si es una
correlaciones empíricas sin ninguna preocupación por una ex- mutraes adecuada de esta clase de . comportamie . Con fre-
plicación teórica que vaya supuesta, se trata de un procedi- cuencia, en el caso demedidas de perfección y eficacia—don-
miento antieconómico. No permite generalización a otros pro- de la consideración de «aspecto de validez» es más apropia-
blemas; va a parar a un conocimiento que se halla aislado •y da—está . justificada la presunción de que el comportamiento
limitado más que interrelacionado y lógicamente fértil (Mar- que parece estar comprendido en el «tests es el que actual-
genau, 1950). mente se mide. Así, p. ej., si se está interesado en la eva-
luación de la adecuación de una persona como taquimecanó-
grafa a través de su ejercicio escrito, análisis de las cartas que
¿Es la validez de una medida evidente por sí misma? 4- escribe a máquina, desde el punto de vista de la exactitud, de-
En los ejemplos que hemos tratado, los datos proporcio- letreo, limpieza, velocidad, etc., parecería que provee de una
nados por los instrumentos de medida han sido utilizados co- evidencia claramente relevante. Sin embargo, podría ocurrir
mo índices de algún atributo del individuo y que no ha sido ocasionalmente que un «test» que parece medir una clase de
medido directamente. Así, las puntuaciones basadas en res- comportamiento se halla de -hecho midiendo otro. Suponga-
puestas a un cuestionario pueden ser utilizadas para diagnos- mos, p. ej., que damos una serie de problemas aritméticos a
ticar cvpredecir enfermedades mentales, o para inferir el grado un grupo de alumnos de curso octavo de enseñanza primaria
en que un individuo posee una característica no directamente y obtenemos un amplio rango de puntuaciones. Pero podría
revelada en el «test». Pero algunas medidas ...se ocurrir que las operaciones aritméticas supuestas pueden ser
sadas directamente_en-liWie de -Coiii-Portamiento_en_que-el realizadas por todos los miembros del grupo; las diferencias
investigadnr está-i~sapl,Los «tests, de realización son en puntuación pueden provenir de diferencias en la capacidad
frecuentemente de esta clase: la velocidad de lectura se mide para entender el lenguaje en que el problema se ha presenta-
por el cómputo de la .cantidad de un pasaje leído con com- do. El investigador debe estar siempre alerta ante posibilidades
prensión un tiempo determinado; la capacidad para resolver de esta clase.
problemas aritméticos se mide por el éxito en solucionar-una s unda consideración—si el Atest3....propordzi_ a o no
muestra de tales problemas; en la realización de un trabajo, una adecuada muestra '515 -blase decomportamiento
_ , _ con el
computando la cantidad y calidad de trabajo producido:la ..q-u-E-Sé- está tratando—requiere, en -principio, una completa
observaciones de ~miento . pueden también tener es- especificación deluniverso de comportamiento en cuestión y
Ins...catactuca
lti,s, si son utilizadas de forMa -descriptiva . más de todos los posibles Ítems del «test» que podrían ser utili-
que como _una base _pira inferencias acerca cíedinamismos zados para su medición. Con frecuencia ello es imposible, dado
que el número de posibles ítems del «testa pueden alcanzar ción de saber de antemano que su medida tiene una validez
el infinito. Lo Que síes posible. y esencial, es la cuidadosa con- satisfactoria, a menos que ello haya sido demostrado en estu-
sideración de • ue com..tiamiento - tamente el que se dios previos relacionados con la misma característica. Es más,
_ e 'no • •110 • as en raramente ocurre que un instrumento pueda ser presentado
como poseedor de una tan alta validez que no sea preciso un
.--edi- o. Supongamos,
prensión
p. ej., que se desea comprobar la com-
lectora. Es obvio que no puede reunirse todo el ma- perfeccionamiento. En el caso de la validez pragmática, el coe-
terial que ha sido escrito. en una determinada lengua y-selec-
cionar una muestra, ya sea muestra aleatoria o con otro cri-
terio. El investigador debe hacer una selección sin conocer el al:hecho -de que. el instrumento no mide
universo total. Pero sí-puede, o debería hacerlo, considerar si
los pasajes incluidos en su «test, se refieren a cuestiones -que -errore,s
—var - iiliies ---
en e ent en el ns inei Ttoit
pueden ser más familiares a algunos individuos que a otros, trie-d'WÉ'i-ies-faraFctiiistancias, es importante determinar el
y en qué casos el «test» -medirá el conocimiento del-tema--más ~p.-error variable éi-erlil~f n ir-
que la comprensión -lectora; si suponen peculiaridades de escaso de ira validez conceptuaT,-no es e una s ..! . de „:
tilo que pueden presentar más' dificultades a unas personas mmnación -directa de validei.ven estas circunstanc ias, a e
que a otras, etc. dencia del grado de error_sanable-es-una-parte-~_sk
fá_eyjdencia_relegida a la_yallez.
A menos que haya sido demostrada previamente la validez
LA CONFIABILIDAD EN LAS MEDIDAS o fiabilidad, esta última característica de un instrumento de
medida debería ser determinada antes de su utilización en un
Como ya ha sido destacado anteriormente en este mismo estudio, mucho mejor que después. Si el instrumento de in-
capítulo, las puntuaciones de los instrumentos de medida re- vestigación se halla afectado de error variable, la verosimili-
flejan normalmente no .solamentellicatacteristica Que el ins- tud de llegar a resultados significativos queda minimizada.
trurtfertirála de iiedir. tino una variedad de errores , cons- Más que avanzar con instrumentos carentes de fiabilidad, se-
rá prudente aplazar la investigación e intentar aumentar su
grado de fiabilidad.
1Proce-dímiegto_de medida consIti" en. la . diterminaCión ,de en
até"Mélfida la va--'-26irdé- titilaciones entii-lidifida-s- él
debida á inconsistencias en ma me ---1 .- 5Warar"--
-7Cua7 me- Métodos para la determinacilki. de-la.
di-das comparables pero independtentes de una misma cosa, fiabilidad -de - la . medida
-
próporcionarán los mismos resultados en el grado en que las

medidas se hallan libres-de errores variables o por azar. del grado de fiabilidad del instrumento de
. Si nosotros supiéramos que un instrumento de medida tu- una determinación de la consistencia de las
viese una validez satisfactoria para el propósito que tratamos
de utilizarlo, no necesitaríamos preocuparnos por su fiabili- chas medidas idénticas de-loTitis/iío:
--75---
idividuos; 11L_Li
1
dad. Si un instrumento .es válido,refleji_e_n_prInedy~- mas condicione.1como base _para la estimación de los erro:
,sume medir,,con. un _mínimo de distorsik
ractéristica que se------ s Weat-610-s de medida—
if- . En el estudio de comportamiento
'por otros 'flietorei,...ya...se.aa_constantessean-traasitorias.;_ Wunano, sin_ embargo, nci-es realizable muchas veces. >lo stl-
y así habilLescant~tiatos-pgra_ investigar su fiabilid ___151... ente,exiistCla-p-ollbilidad de que las mediciones re
decir, el grado en que se halla influido_pqrlaetit~o§. das creen un ambiente de haidiT; puede también llegar a
No obstante, un -investigador se halla raras veces en situa-
isi7ééréi;:Pjele -eitilarse la fiabilidad' sobe
•
7 Para un tratamiento más detallado sobre la fiabilidad, véase Gol-
Mesen (1950), Guilford (1954) y Tryon (1957b). _una dos.medidas para cada inctívi una
de la población sobre la que el instrumento de medida será líder, actitudes, moral—muestran tales variaciones. La incon-
utilizado—o incluso sobre la base de una medida si ésta pue«: sistencia de este tipo no debería ser interpretada como falta
de sujetarse al análisis interno. Pueden obtenerse , suficientes
de fiabilidad en el instrumento de medida, pero complica el
la:e-Mentando el número de indivi problema de la determinación de la estabilidad del propio
Itimentin-dWeTTfir—
_La gia_de,..Inedidasj instrumento.
cedim - ieritó nlital en el cómputo de la Aunque existenl fluctuaciones genuinas en la característica
ro- cte-akthrfrittice-tarréuercro-élitre afrtfatáló
t -ilde_medri, con - -frecuencia será razonable ~t.
mir que existe algtma_posrtón ~., s para un rminad
iiidffid_gp, objeto, etc., alrededor -da cual se centran las fluc-
istintos métodos de etimación tuacipnel. T'al presunción SeTla-,-p-71,--éril cálculo de la tem-
tran en direreflté fuentes de varia peratura media de una determinada ciudad durante una cier-
ta estación, o en la determinación del peso de una persona.
Es una suposición frecuente en los estu dios de características
sociales y psicológicas de individuos o de grupos. Cuando nos
interese la determinación de esta post ión «típicas, debemos
érci161,5Pe~lr: considerar el grado en que una determinada medida parece
ritilizaremos el "términt escaoutaaa para re- desviarse de ella y cuántas mediciones son necesarias para
ferirnos a este tipo de o se ocupan de la equi- llegar a una puntuación estable y segura. En este sentido_po-
valencia de la situación demos ocuparnos de la estabilidad de las medidas, aunque el
o a un 1Fm-áitoseáll. -cle la -falta e fia bilidad
ine didg,_
finta-a
tritrlfráidirptft! La inconsistencia en mediciones repetidas puede también
-- • ser debida, desde luego, a falta de adecuación del instrumen-
Se Ç1Ja1'iLV ue • .• to de medida. Una escala que muestra el peso de un individuo
tre. o de los iteras o a o •al- - en 74 kilos y dos minutos más tarde nos lo presenta en 84
kilos, probablemente tiene algún defecto mecánico. Un obser-
vador puede en una ocasión clasificar una larga respuesta de
Estabilidad. La estabilidad de los resultados de un ins-
—
un profesor a un alumno como «discusión), otro como «con-
trum' ej.-ft-Caí-medida se determina sobre la base de la consis- ferencia». Un individuo puede contestar de forma distinta en
tencia de las medidas después de aplicaciones repetidas. Es dos ocasiones ante la misma pregunta en una escala de acti-
importante, sin embargo, distinguir entre inconsistencia debida tudes, aunque, como aquí, la «actitud» no ha cambiado.
a los genuinos cambios en la característica medida y a la de- El método adecuado para la determinación de la estabi •
bida a los cambios en factores extraños. La característica me- es la com ara • n de, los reç,iItuins ci l as mediciones repeti-
dida puede fluctuar de una aplicación de la medida a otra. o es cierto, tanto si es fluctuación normal de la carac-
Esto es cierto en fenómenos físicos, tales como temperatura, terística que se mide la fuente de inestabilidad como si lo es
presión arterial, peso. Muchos de los fenómenos con los que el error de azar debido a la falta de adecuación del procedi-
se relaciona la ciencia social—p. ej., el comportamiento del miento de medida. Cuando el instrumento de medida consiste
en observaciones, crélé-stsrlrfflizado ungran número de_21)-:, 1
8 La consideración de fiabilidad en términos de estabilidad y equi-
Te-fadóliit-félietidIs. C- . o ao .1 te en una entrevis. , es- 1
valencia de puntuaciones fue sugerida por Cronbach (1951). Una ter-
minología anterior (método de test-retest, etc.), refleja el hecho de que i it1nffiQ o Iiies-t» p-royectivo,.,: o r, ..en - . • nille"rin
los procedimientos para la estimación de la fiabilidad originaron, en la gulktracion_es solamente,
mayoría de los casos, la conexión con el desarrollo de la inteligencia Ilustremos ambos procedimientos. Vamos a suponer que
y los tests de aptitud. queremos saber el porcentaje de tiempo que un determinado
líder de grupo emplea en conferencias, comparado con otras pci- timar la estabilidad de la medida, ex ce ce ten
. ue es eneral-_ 1
sibles actividades. Puede ser asignado un solo observador con inerite-áídicáda dos veces-, -e- cww 6.--c--:on
n Io que-li--d nombre
. ----d-r
un cronómetro para observar al líder durante un período de de Pródtdinikerlto .de •Itest-retéstgra — - etifrevistac.,
mrána
quince minutos mientras se halla a cargo del grupo y anotar dr adiriimitrada a los niilliZiglvíduos en clisfiltos___mitos tie
el tiempo que dedica a conferenciar durante este tiempo. A lijo "condiciones equivalentes,x7enTonces se copaian los,
partir de este control el porcentaje de tiempo dedicado a char- resultados de las dos mediMs....No obstante, ñTl caso de
las puede ser fácilmente calculado. Luego el mismo observa- procedimientos de medida como los que aquí se exponen, y
dor puede realizar un control semejante del comportamiento que requieren una gran participación del individuo, se plan-
del líder del grupo en otra ocasión en que se halle a cargo tean complicaciones adicionales. El mismo proceso de medida
del mismo grupo. Cuando el proceso ha sido repetido varias repetido puede intensificar las diferencias de factores pasaje-
veces tenemos una serie de cifras, cada una de ellas renresen- ros; p. ej., la ansiedad, el interés y la motivación pueden set
tando el porcentaje de tiempo que el líder del grupo dedica a menores durante la segunda administración del «test» simple-
la charla en plan de conferencia en una determinada ocasión, mente a causa de que el individuo ya está familiarizado con
según el observador. Podemos tomar el rango de los porcenta- el mismo. En el grado en que ocurren tales cambios, el «test» '
jes como nuestro índice de la estabilidad de este porcentaje,
•
ofrecido en segunda administraanqüe -iii~

su desviación standard, o alguna otra medida de la variabi- iftíVame g. te..ion el anteriór-, éciiTrepreseiltaillntonces
Pli una:
lidad de las series. La falta de estabilidad uede ses.4ebida al situación >ae examen bastante...disiiita-Es más, el sujeto pue-
las variaciones en e corportrm-fel-toifér 1 er o en el cont7o1 k lb recordar las respuestas que dio ante el primer «test» (par-
'llevado a cabo por-él -otis-ei'vad.or" .9 en-anibel, ticularmente si el tiempo de intervalo entre los dos «tests» es
También' -poda ocurnr '—que estularamos interesados en reducido) y, en el segundo «test», puede dar de nuevo las res-
la inclinación por las conferencias por parte de un número de puestas que recuerda (o que recuerda equivocadamente) y que
líderes de grupo. Si cada uno de ellos es observado durante han sido dadas en la segunda vez en lugar de respuestas es-
quince minutos por el mismo observador bajo condiciones pontáneas o pensadas,
comparables, es posible ordenarlos en términos de la propor- Existe otra posibilidad de que la medida inicial haya al-
ci6n de tiempo que cada uno de ellos dedica a las conferencias. terado la característica que se está midiendo. (Recordamos al
¿Cuán estable será este orden? Podríamos seguir el procedi- lector el esquema experimental de«antes-después,» en el ca-
miento descrito en el último párrafo para determinar la esta- pítulo precedente.) Una entrevista, un «test» ofe-iftua ción, un
bilidad del porcentajede tiempo invertido en conferencias por cuestionario de actitud puede presentar cuestiones nunca pen-
cada uno de los líderes de grupo, pero ello no nos diría nada sadas por una persona, y puede acrecer el interés y estimular
directamente acerca del grado en que el orden de los grupos el desarrollo de opiniones definitivas; así, p. ej., una respues-
de líderes iba a permanecer inalterado en esta característica de- ta de «no sé» puede ser sustituida por un acuerdo-~Erá
terminada de un tiempo de observación a otro. La estabilidad en __ _ .
do difinitivos: .
el orden individual en un grupo se mide generalmente por un
coeficiente de correlación o por algún otro índice de coinci- - ' Además *de la posibilidad de cambios sugeridos por la me-
dida inicial, existe-como en todos los tipos de medida-la
dencia entre puntuaciones o lugar de clasificación recibidos posibilidad de cambios específicos entre las dos administracio-
por estos individuos en la primera administración de una me- nes del «test». Como un resultado de las influencias extra-
dida y en las puntuaciones o lugar de clasificación recibidos ñas al «tests, algunos sujetos pueden haber adquirido más
por los mismos individuos en una segunda administración de información, u ocultado un cambio de actitud, durante el in-
la misma medida. En el ejemplo preciso que estamos tratan- tervalo entre las dos administraciones del «tests. .
do, la (puntuación» dé un individuo sería el porcentaje de Cuando existen ambas posibilidades, la de que la medida
tiempo en que fue observado como dedicado a conferencias. inicial pueda afectar a los resultados de la segunda medida
y.n_el-caso entrevista,,-cuestionaria_ y la de que se produzcan determinados cambios acarreados
tivo, se utiliza- esenelalmente-el-mismo procedimienta_para~ por otros factores, la práctica usual es colocar alguna activi-
dad durante el tiempo de espera de uno a otro «test) lo sufi- el personal encargado de administrar y puntuar el «tests es
cientemente extensa :como para borrar los efectos del primer el mismo en las aplicaciones repetidas, el coeficiente de esta-
«test. pero tampoco demasiado para permitir que se produzca bilidad no tiene en cuenta posibles variaciones en la utiliza-
un verdadero cambio. Si la segunda medición se efectúa antes ción del instrum9Aito por distintos administradores o analistas.
de que los efectos de la, primera hayan desaparecido, la esti- Equivalencia.-WLa equivalencia se ocu de con
mación de la estabilidad no será segura porque los resultados gra-5-15— s -distinto-s-~tores uflhizancUo el instrum _to,
de las dos medidas no serán independientes; el error parece plEll-firealr-ii-151--mism J'inTviduos al mun o tter-n
hallarse en la dirección de una sobreestimación de la estabi- fultórin~fitos álicád1ø81fl1 1d1viduos al mismo
lidad. Por otro lado, si han tenido lugar cambios específicos, ampttliegan-a resultados codts.tentes il. ilustraremos la primé-
el coeficiente resultante será una subestimación de la estabili- ra condición (distintos investigadores utilizando el mismo ins-
dad del propio instrumento. No pueden ofrecerse reglas simpli- trumento) con nuestro anterior ejemplo del comportamiento'
ficadas y rápidas para poder juzgar el intervalo óptimo; en de los líderes de grupo; el segundo (distintos instrumentos)
gran parte depende de la naturaleza específica del «tests. Afor- por el ejemplo de un «tests de información, capacidad, o ac-
tunadamente, puede admitirse la desaparición de los efectos titud preparado partiendo de un número dado de Ítems.
muy rápidamente al principio, y en un grado decreciente con- En nuestra explicación anterior de la medida de las afi-
forme avanza el tiempo En otras palabras, disminuyen las ciones a conferencias entre s_l líderessupon
de grupo _ osa , que
fl
posibilidades de recuerdo - cuando transcurren largos períodos un solo observador era el responsable de todas las edicio-
de tiempo. Un espacio de dos semanas a un mes es admitido nes tomadas. I'gro, ¿qué ocurre si ,e,ste . observador j
generalmente como intervalo razonable para muchos «tests» un error sistemItico, o inseguro de oir° - m-ode7La„noc-r 1
psicológicos. Si existe duda, sin embargo, es mejor aguardar dI": pr-o-Ce-alniiiito seguro de medida requiere ue proporcione
un período más largo, mejor que pecar de corto, ya que con m
resultados coparables -d a mis or el itestil a
el aumento de tiempo tales errores parecen ir hacia una subes: 'otro,
_ -siempre que amboayarLsistruidos lo suficiente;
timación de la estabilidad del instrumento más que a la so- en otras palabras. las fuentes de vatiactiWen el item
breestimación. Se está más seguro con una sub cue 9n nal de la- ogin-a- 177, deberUffie-F-muumwmins4Podemos hacer
sobreestimaciónrrnél primer caso, el inv.e.stiyador,.s~e una estimación del grado de variación situando a distintos
Su instrumento ,e,sra~s, lariZestable- Com.. observadores entrenados para observar a los líderes de grupo
ficiente; en último caspa)» sabe en .qué situación se. _talla, al mismo tiempo, y obteniendo los informes independientemen-
En resumen : &Leo ' e-iiciente de .estabilidariddica el vado te• del tiempo en que se cree que cada líder ha estado confe-
en que la medida- rdkjiiiís-diférencias e raCterfátias ré-, renciando.
lativamente persisteltes_entre indiyiduos . .y . gue afectan a la A partir de tales informes, pueden ser calculados índices
medida." En el grado en que el coeficiente se hallapor de- de equivalencia de diversas formas. Si tenemos a nuestra dis-
bajo del' valor máximo posible, se supone, bien que existen posición un número de observadores controlando a un solo
fluctuaciones específicas en la característica objeto de medida, líder de grupo, y cada uno de ellos informa independientemen-
bien que la medida se halla sujeta. A e rrores de azar debidos te del porcentaje del tiempo que el líder ha dedicado a confe-
a factores personales_pasajeros o a otras cond i rencias, podemos utilizar la desviación de rango o la standard,
cambiado del tiempo de unVadriiinistración al de Ja próxima, de tales porcentajes, como índices del grado de equivalencia
pi coeficiente de-estabilidad toma .en conside,ración....el 11 Es conveniente utilizar la frase "al mismo tiempo"; no obs-
muestreo de preguntas _como upa fuente de „inseguridad. Si tante, las dos medidas no han de ser administradas forzosamente si-
multáneamente. De hecho, en el caso de distintos instrumentos, es a
9 Véanse las curvas del olvido en cualquier manual corriente de menudo imposible administrarlos literalmente al mismo tiempo. Lo
Psicología. que quiere significarse es que, en la estimación de la equivalencia, el
111 Nótese que estas "diferencias relativamente persistentes" pue- tiempo de intervalo entre las medidas no es lo suficientemente corto
den serio en características distintas a las que el test trata de medir; como para que no se pueda esperar razonablemente que la caracterís-
es decir, que pueden envolver errores constantes. tica ha cambiado.
200 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 201.
de los distintos observadores. Otra posibilidad es dividir el tra de Ítems a otra, y en el índice de equivalencia que se cal-
período de observación en unidades de tiempo de la misma Tffla-conl~le-un •gt17.1teIrecorret!tchlr:~1._
duración; 15 segundos podríaser una unidad de tiempo con - concepto_e,stadfsSco estrechamente...rej~,
veniente para un período de observación de 15 minutos de - Los principios supuestos en la estimación del efecto del ítem .
duración. Cada observador informaría de cada una de estas de la muestra sobre la equivalencia son mejor apreciados en
unidades sobre si la actividad del líder del grupo ,durante es- el caso de,eruebas alternadas administradas di mismo tiernn
ta unidad de tiempo fue o no la conferencia. El índice de equi- En este procidimiento,- pruebas que se suttautu....eouivalentes
valencia para dos observadores sería el porcentaje de:- unida- 12-7"-o.msm«test»
- -. . son administradas a los mismos individuos
des de tiempo en que estuviesen de acuerdo sobre si el líder effla misina sesión. AraiIiii-e-Tal-ddr15P51~mitienen-disa
de grupo estaba o no conferenciando. tIlité~s-, -¿lbs . tr. -atan •dé-iifeWirfirabl' a
Si nuestro
nuestro interés principal se refiere al grado en que los ilt7 ' La • córrelación entre puntuactactesr~buradWas
distintos observadores están de acuerdo sobre el orden de cla- del Itest»..indica- el grado en-que-éatea-midealLmisma ea- ....
sificación de líderes de grupo (mis uno de ellos observado ra.. cteristica
. . de,mna.forma
- •consistente.--,
durante una sola sesión) con respecto a la proporción de tiem- Es evidente que este procedimiento no toma en conside-
po dedicado a la conferencia, utilizaríamos entonces un coefi- ración las fluctuaciones cotidianas de la persona o de la mis-
ciente de correlación como índice de la equivalencia de cual- ma situación en el momento de la aplicación de la medida,
quier par de observadores. . puesto que ambas formas del «test» son administradas en una
La IltifflagiOn-s1-111-01.4ing11.914.cle-liLP~~ sola sesión. Algunas diferencias pasajeras, sin embargo, apa-
divIduos con relación
_ _ a distintos instrumentos que tratan de recen de forma inequívoca. Puede haber variaciones en la
inedir Já misiiiii 'cara-cliRiTcrie"Cérifia-eii lrvarIllti6li .(.9i101 atención durante el período de la aplicación del «test»; un
luaciones-débkliCa .. p. 9.1,91.-:
( -; en21
__ -.MUestreitairlos4ma
- a• aumento del aburrimiento o de la fatiga pueden infl "r las res-
ExistenInTu-Wet . - .,.. 1 . podríamosJ.ele..99,10aLjaa- puestas en el segundo «test»; las respuestas a preg1ntas del
ra medir_ cjjaignier.mautedstica..deteraninada 1 en- qg primer «test» pueden afectar a las del segundo «tes ». No
do 'es . 1S, rudkla_41,1a ,característica quq qiiçipj ' j obstante, a menos que los procedimientos de medida sean
partir de upa serie dorrtrIms 'équivalente a la medida .fflAu.gb- extremadamente largos, estos cambios parecen ser menores
tendríamos á-par:lir droTryloSible "se4g2, Trataigicr~s que los debidos al azar que tendrían lugar en un período de
istimacioneárlifflizaremos comólratración. un «test» prepa- tiempo mayor; así, los coeficientes computados sobre esta
rado a partir de distintos items al que los sujetos responden base no tienen en cuenta de forma total el efecto de los erro
satisfactoriamente. res variables de este tipo. Por otro lado, puesto que existen
La construcción y selección de ítems de «test» es un. pro- muy pocas posibilidades da- cambios específicos en la carac-
cedimiento bastante arbitrario, y hay un amplio margen de terística durante una sesión de aplicación del «test», este mé-
ftems posibles para la medida de una característica determina- todo de control de la confiabilidad evita el problema de confun-
da; en consecuencia existe generalmente poco interés en sa- dir el cambio verdadero con el error casual.
ber el grado en que las respuestas de un solo individuo varían 1.. ggtodo„de.../coyte . . r la • d» itlesser_s1~,
m
de un ítem a otro, en un determinado «test». Es cierto que la como un_casg especial dé rii tg u... as alternada
sssimi-
mayoría de los «tests» están elaborados para asegurar un am- nistradas . . al mismo tiempg. ,Z u...9.110,„priazdjuuejitla„„sajdubi....-.
pilo rango de respuestas para cada individuo; p. ej., en un fiiáfni una sola forma de «test » por vez rimera a
«test» de actitud se espera que cada individuo halle algunos de individuos; las preguntas-det5ivididasiuegoen.
Ítems en que se muestre de acuerdo y otros en que esté dis- dos Mitades, y.las ppuntuaciones de ambas mitades son- ....n.p
Co i " a
.-
conforme, y en un «test» de perfección o capacidad se supone rádárs a fin de obtener una estimac- ió-n7delllidoTen q_umon
que cada individuo hallará algunos ítems que pueda superar equivalentes. En otras palabras, las dos mitades son conside-
u otros en que fracase. El interés se centrará en el grado en das como formas alternadas del mismo «test». El coeficien-
que la ordenación de los riailildüog
_.
' Sea el 'mismo de una dines-
«test»; una vez más, un alto coeficiente de equivalencia es in- timación de la equivalencia «de corte por la mitad», éste úl-
terpretado como índice de que la situación del individuo no timamente expuesto, como el de protocolos alternados admi-
se halla afectada por esa determinada serie de preguntas en nistrados al mismo tiempo, no tienen- en cuenta las fluctua-
cualquiera de las dos mitades, sino que, por el contrario, sería ciones diarias de la persona ni tampoco las de las condiciones
sustancialmente la misma en cualquier «test» elaborado con de administración.
preguntas del mismo universo. L .
En resumen : el coeficiente sie_pqgivaleucia incljaxj„„gm.- -
do en.que concuerdan las rne-clide los mismos. individuok
miento de.prntocolos altem3dos,_un coeficiente
puede refleja,Lerrams-casimles--ea-las-wespuestar~sadátais
_ww.,equivalencias-de_1412.40411-iata
cletertnina_das asLcon
(19
d _
41iQ tiempL Las mediciones pueden ser realizadas por
istintos observadores utilizando el mismo instrumento, o por
g,,utytas. distintos instrumentos que tratan de medir la misma caracte-
Tradicionalmente se ha estimado que en el método de rística. En la medida en que el coeficiente sea menor que el
«corte por la mitad» el «test» o medida debería ser secciona- máximo valor posible se supone, en el caso de distintos ob-
do en mitades equivalentes, cada una de ellas representando servadores utilizando el mismo instrumento, que existen va-
la totalidad del «test» en todos los aspectos significativos 12 .
riaciones en la utilización del instrumento por distintos obser-
El método ordinario de obtención de presuntas mitades equi- vadores. En el caso de distintos instrumentos elaborados con
valentes es mediante la asignación de las preguntas con núme- un número determinado de Ítems, se supone que los !te=
ros pares a una mitad, y las de los impares a la otra. La co- no son medidas equivalentes de la misma caracte -rística o que
rrelación entre las puntuaciones de las dos partes es entonces existen errores de azar en las respuestas a las preguntas o
interpretada como una estimación del coeficiente de equivalen- ambas circunstancias a la vez. En cualquier caso, el coeficiente
cia de un «test» de una dimensión con la mitad del «test» de equivalencia no tiene en cuenta la inestabilidad con el pa-
original. A partir de aquí puede ser computada una estima- so del tiempo como fuente de inseguridad.
ción del coeficiente de equivalencia para todo el «tests—co- Estabilidad y equivalencia. Como ya hemos indicado, los'
—
nocida como «fiabilidad de corrección del corte medio»—por índreli-al la istabifidad-dépuntuacion consideran primor-
medio de la fórmula de Spearman-Brown. (Este procedimien- dialmente las fluctuaciones de los facto es personales y am-
to se trata más adelante con mayor detalle en la página 211.) bientales COMO fuentes de inseguridad, n tanto los índices
Estudios más recientes han llegado a la conclusión de que, de equivalencia consideran en primer lugar las variaciones
si todos los ítems del «test» tratan de medir la misma carac- en la administración, contenido y circunstancias de los pro-
terística, deberían ser comparadas mitades obtenidas por azar ceslimientos. medida.r edimientos dei
más que equivalentes, y de aquí se ha obtenido un nuevo mé-
todo de cómputo de un coeficiente de equivalencia 13 . El ín-
dice resultante de este método, llamado el coeficiente alfa tie- distintas de inseguridad. Un grupo de individuos re-
ne, entre otras ventajas, la de ser la correlación media de cibí un protocoloi de un «test» en una vez (o controlado por
«corte medio» para todos los posibles casos de división del un observador en una situación determinada); después de un
«test» en dos partes. Esto llena los requerimientos de mues- lapso de tiempo, estos mismos individuos reciben un proto-
treo aleatorio con respecto a los ítems que componen las dos colo distinto del mismo «test» (o son medidos por un obser-
mitades del «test». El coeficiente alfa da un coeficiente exac- vador distinto en otra situación). La correlación de puntua-
to de equivalencia para la totalidad del «test». La exposición ciones o clasificaciones en las dos ocasiones proporciona un
del método no puede ser hecha aquí, pero los lectores intere- índice general de la fiabilidad del procedimiento de medida,
sados pueden consultar las referencias citadas. En el caso de los cuestionarios, entrevistas, etc., este pro-
Cualquiera que sea el procedimiento utilizado para la es- cedimiento tiene la ventaja sobre el método de «test-retest», de
estar menos afectado por la memoria y la práctica. No obstan-
te, el hecho de que los ítems en los dos protocolos sean dis-
12 Véase Thorndike (1949) y Guilford (1954).
Véase Cronbach (1951) y Tryon (1957b). tintos no significa que los resultados de la segunda aplicación
puatuaciones. Algunas veces el instrumento de medida no lle-
del «test» sean totalmente independientes de la primera. Ha- ~1f1mo al análisis interno que pudiera precisarse pa-
biendo realizado la primera, la actitud y disposición para la ra una medida de la equivalencia. ual uiera que sea e1 mé-
segunda pueden ser distintas; pueden haberse recibido: los tpdo_utilizado-por :el inv •
impactos de la práctica por la estimulación de los ítems que nocimiento de sus implicaciones •
parecen nuevos; e incluso los efectos del recuerdo u olvido
pueden actuar como una consecuencia de la semejanza de los
Ítems. Como una precaución contra la distorsión.de los resul- ¿En qué consiste una fiabilidad satisfactoria?
tados por los efectos específicos del hecho de haber tomado No existe una simple respuesta a la pregunta acerca de qué
un determinado protocolo del «test» en primer lugar, la ad- se considera una fiabilidad satisfactoria. Depende del objetivo
ministración de los dos protocolos queda compensada ordi- y del método por el que ha sido estimada la fiabilidad. En ge-
nariamente; es decir, a la mitad del grupo se administra el neral, cualquier falta de fiabilidad en un «test» disminuye su,
protocoloo-A pritnér3~tacqlo B eala.,,s,mundit adminis- validez; análogamente, disminuye la posibilidad del investi-
tración, en tanto_ la..0~itad .toma el protpcólp_p_pdam gador de demostrar relaciones entre variables o de hacer dis-
'No obstante; ello no evita los efectos más qenerales, consecuen- tinciones precisas entre individuos que son semejantes en la
cia de haber tomadoi.finlotocolo, cualquiera que sea éste. El característica que se trata de medir. .
Probleina- dcestabrear i- nte-rVEY-d1 tiempo adecuado entre Fiabilidad y validez.—En el grado en que las puntuacio-
las dos pruebas no es esencialmente distinto, por tanto, del nes -a-fardas - por la aplicación de un instrumento de medida
encontrado de estimación de la estabilidad por el método de están influidas por errores de azar, ya no son índices exac-
«test-retest». tos de la posición de un individuo en términos de la caracte-
Como en los métodos de observación repetida_cuitestat,tros„, rística que se intenta medir. En otras palabras, en el grado
existe la posibilidad-5-4-ue- los cambjçpçfficos' de la ca- en que una medida carece de fiabilidad, se halla falta ,
de\va-
tacterístier á- liado ugar eirErr- n er-'" lidez. Debe anotarse una excepción, no obstante. Ctia4. do ,la
imlo'clelti.rdliráciarnirsnes41111Citestp..,Pero, una vez mls, estimación de fiabilidad consiste en un coeficiente de "va-
siempre -que los resultados de las dos aplicaciones, del «test» lenCia de «corte por la mitad», un bajo índice de fiabilida,,
sean razonablemente independientes, el efecto de esta posi- no rebaja necesariamente la validez; paradójicamente, puede
bilidad es hacer del cQeficiente obtenido una estimación de la llegar incluso a incrementar la validez. Para que una equiva-
confiabifidad mínima del instrumentódi medida.
---- PlIsttreffirlrmétodo de administriaón de prccedimien. ,
tos altéiaidoi - de medida en tiempos -distintos tiene en cuerita
lencia de «corte por la mitad» sea alta, todos los ítems del
. «test» deben estar altamente correlacionados; es decir; deben
todos proveer una medida de la misma característica como
Más fuentes de variación-1.44e los otros métodos deicritcts,da- condición esencial o bien de características que varían al mis-
ra ordinariamente . utía7Má. s_baja estimación—si-bien-más-exac- mo tiempo. Para utilizar el término técnico, deben ser homo-
ta—de confiabilidad que.cualquier otro coeficiente . de- estabi- géneos. Sin embargo, para algunos propósitos, un «test» que
lidad o de .equivalencia. afecta a un número determinado de características puede ser
¿Qué, método_de_e_timaa
s la. fiabilidad jirilj7ark más válido que uno que mide solamente una característica.
,investigador-en-unaj~igaci6n-determinada? Ello depen- Supongamos, p. ej., que estamos trabajando con la selec-
derá, no solamente del valor de las distintas
, té para lo- ción de candidatas para ser admitidas a un curso de enferme-
grar sus propósitos, sino también . .0 1:• es ras. Supongamos también que ya hemos eliminado por otros
cas _que le le ofrezcan y de los recursos que pul. é • e.icar métodos a las que no se hallan claramente dotadas para la pro-
al desarrollo de sus procedimientos de medida. Algunas veces fesión, bajo criterios tales como inteligencia baja, escasa re-
no es posible para el investigador tener a su disposición ...al sistencia física, fuertes trastornos de personalidad, etc. Quere-
Inisme -gfupu...da-snietos dos veces, o el costo de ellawk:ea 4 mos un «test» que nos ayude a seleccionar, de entre todas las
ser prohibitivo; en tal caso no tiene posibilidad de elección, que han satisfecho las condiciones básicas, a las que parecerán
sino basar su estimación de la fiabilidad.en
ser más eficaces como enfermeras. Parece obvio que un de- no parecen muy seguros, ello es compensado por la compli-
terminado número de características serán significativas; es- cación en las muchas facetas del complejo. Un error de su-
tas pueden incluir, p. ej., capacidad de autodominio, para acep- bestimación de una faceta tendería a ser compensado por un
tar y seguir instrucciones, y quizá características tales como la error o sobreestimación de otro. En principio, si cada ítem
capacidad de introspección y de tratar de entender a los de- se proliferase en «multi-ítems» más seguros y las puntuaciones
más, simpatía, optimismo. Podríamos, p. ej., elaborar un «test» de cada «test» componente señalasen ponderaciones mejores
para cada característica que creemos, o sabemos, son relevan- más , bien que iguales, la validez pragmática de la batería en
tes. Pero para el uso práctico de selección de aspirantes, una su conjunto aumentaría.
batería semejante de «test» no sería posible; podríamos es- Descubrimiénto de relaciones entre variables.— Los errores
timar preferible combinar en un solo «test» de «Probable éxi- aleatorios en la medición de una variable—es decir, la inse-
to en la profesión de enfermera», ítems que midiesen un de- guridad del instrumento de medida—reduce claramente la po-
terminado número de las características relevantes. En tal sibilidad de descubrir en qué grado se halla relacionada una
«test», las correlaciones entre distintos ítems serían probable- variable con otra ' 4 . Supongamos que hemos elaborado un
mente bajas; y por tanto, la estimación de la equivalencia con- cuestionario para medir la moral del obrero con la esperanza
trolada por la técnica del «corte por la mitad» sería baja. No de que ello nos servirá para hacer predicciones acerca del ín-
obstante, el «test» puede ser muy eficaz para la identificación dice de absentismo bajo determinadas condiciones. Si el cues-
de candidatas que desempeñarían bien el oficio de enferme- tionario fuese totalmente inseguro—p. ej., si los obreros cla-
ras. ¿Cómo puede llegarse a esto? sificados por el cuestionario como poseedores de una baja
Desde el punto de vista de la predicción de un determina- moral fueran precisamente los que muestran un alto espíritu
do resultado de conducta, el «test» ideal compuesto de una en una segunda administración diez minutos más tarde—sería
serie de ítems debería tener las siguientes propiedades : cada imposible observar una relación entre moral y absentismo,
ítem debería tener una alta correlación con el criterio, y co- incluso si los dos estuvieran, de hecho, estrechamente vincula-
rrelación cero con cada uno de los ítems restantes. Si fuéra- dos. Si el cuestionario no fuese totalmente inseguro, podríamos
mos capaces de construir un «test» semejante y medir su fia- ser capaces de demostrar que existe alguna relación_51>t4e mo-
bilidad por el método de «corte por la mitad» o cualquiera ral y absentismo. No obstante, si queremos saber cuán estre-
de los restantes mencionados, pudiera ser que, al final, re- cha es la relación entre las dos variables, es necesario poseer
sultase tener una fiabilidad muy baja. Así, parecería que las instrumentos altamente seguros.
especificaciones para la validez pragmática en grado máximo Diginción,entre indivi4u~2^—Todos los métodos
requieren confiabilidad baja, contradicción aparente con la pro- de estimación de la fiabilidad que hemos descrito, y la ma-
posición establecida anteriormente de que la confiabilidad es yoría de los restantes de utilización ordinaria, consisten bá-
una condición necesaria para la validez. Debería ser destacado l'sicamente en la determinación de si las medidas en distintos
que, en primer lugar, nuestro «test» ideal todavía habría de momentos y por distintos protocolos del instrumento sitúan
poseer una fiabilidad razonablemente alta para considerarlo a los individuos en la misma situación en relación con la to-
útil—es decir, tener validez pragmática. En segundo lugar—y talidad del grupo que ha sufrido las pruebas. Dejando aparte
constituye una importante lección aquí acerca de lo que miden el «tema» del «test», o el método de estimación de la confiabili-
los buenos «tests» pragmáticamente válidos—la fiabilidad de dad, la pregunta que se formula es esencialmente : ¿Coinci-
«corte por la mitad» no es lo que parece. Nuestro «test» ideal den los resultados de los dos «tests» de situación en el lugar
no es, en realidad, un «test» en modo alguno, sino una bate- en que sitúan a X (y a cada una de las restantes personas del
ría de «tests» de un sólo ítem cada uno. El «test» pragmática- grupo) en relación con la puntuación media del grupo? El in-
mente válido no medirá, por tanto, una característica, sino
un complejo de muchas características. La determinación del 14 Una vez n'As hemos de destacar que esto no se refiere a las
coeficiente de fiabilidad de «corte por la mitad» para un «test» medidas en que la equivalencia del "corte por la mitad" no reduce
así elaborado no tiene sentido. Si los «tests» de un . sólo ítem la validez pragmática.
dividuo X y cada uno de los restantes pueden alcanzar diez tendrían que ser, aproximadamente, tres veces mayores que
puntos más en otro «test» distinto al planteado, pero ello no si fueran 0,60 más que 0,90; y aproximadamente 1,4 veces
es prueba de inseguridad si cada uno de los sujetos está en tan grandes que si fueran 0,80 en vez de 0,90. la fiabilidad es,
la misma situación relativa a las otras en ambas mediciones. por tanto, importante para una distinción precisa, y sin ella
Ni tampoco los distintos cambios en puntuación para distin- las graduaciones detalladas en el instrumento de medida son
tos individuos afectarán a la estimación de fiabilidad a menos ilusorias.
que cambien la posición de los individuos en relación con los 3. La estimIción de la fiabilidad supone la fiabilidad media
demás. Supongamos que en la primera medición A puntúa 30, de puntuaciones de los individuos en un grupo.—No propor-
B, 40 y C, 50; y que en la segunda medición A alcanza 33, cionan una estimación de los distintos grados de fiabilidad de
B, 40 y C, 47. Puesto que la posición relativa de los tres no las puntuaciones de cada individuo dentro del grupo. Es, des-
quedaría alterada, estas variaciones no pueden presentarse co- de luego, una aproximación de grado desconocido la asigna-
ción del mismo coeficiente de fiabilidad a las puntuaciones de
mo signo de inseguridad. Pero supongamos que en la prime- todos los individuos. Con frecuencia, la fiabilidad de una pun-
ra medición el individuo A ha obtenido 39; el B, 40 y el C, 41.
Si el individuo A vuelve a aumentar tres puntos en su segunda tuación en un lugar de una serie continua es distinta de aque-
medida y C pierde de nuevo tres puntos, su posición relati- lla otra situada en otro lugar; p. ej., los individuos que tienen
va se alteraría; entonces los cambios en puntuación entre las actitudes más intensas pueden ser más consistentes que aque-
dos situaciones en el «test» se presentarían como índice de llos menos intensos (véase Cronbach, 1949). La seguridad de
una puntuación media es mayor que la de las puntuaciones indi-
inseguridad. viduales que van supuestas en el cómputo de tal medida. Si
Tomando como punto de partida estas operaciones utili-
zadas en la estimación de seguridad, se obtienen varias con- estamos interesados en resultados de grupos, podemos con-
secuentemente operar con instrumentos de medida de una fia-
secuencias : bilidad relativamente baja, compensando este defecto con el
1. El grado de seguridad de un procedimiento de -medida aumento de tamaño de la muestra. No obstante, si estamos
es siempre contingente al grado de uniformidad de la carac-
terística dada dentro de la población sujeta a la medida. Las interesados en hacer afirmaciones o predicciones acerca de
alteraciones pequeñas en las puntuaciones individuales pue- determinados individuos sobre la base de sus puntuaciones,
den llevar a cambios en la posición relativa dentro de un .grupo los grados de fiabilidad por de1\ jo de 0,90 son arriesgados.
en el que las puntuaciones de muchos individuos se apro-
ximan unas a otras, teniendo en cuenta que las mismas alte- Formas de aumentar /a fiabilidad
raciones no llevan precisamente a cambios en la posición re-
lativa dentro de un grupo donde los individuos difieren mar- La fiabilidad de los procedimientos de medida puede con
cadarnente uno de otro. Así, un «test» de baja seguridad en frecuencia ser aumentada tomando las precauciones debidas
una población muy homogénea puede mostrar una alta segu- con relación a las fuentes de error. Así, las condiciones bajo
ridad en una población muy heterogénea. Los «tests» se publi- las cuales se aplica el procedimiento puede ser standardizado
en alto grado en ocasiones, atendiendo a la iluminación, gra-
can algunas veces con altas estimaciones dudosas de seguri- do de ruidos, temperatura, presencia de observadores, etc., si
dad, computadas sobre la base de la administración a pobla-
ciones muy heterogéneas, siendo así que la aplicación del tales factores son considerados significativos. Las alteraciones
«test» puede requerir la capacidad para distinguir entre indi- no deseables en la administración del procedimiento pueden
viduos de grupos relativamente homogéneos. ser minimizadas utilizando solamente personal lo suficiente-
mente preparado, instruido y motivado. Puede exigirse que
2. La seguridad en alto grado es más importante si de- los sujetos que van a ser entrevistados lo sean solamente cuan-
seamos hacer distinciones sutiles entre individuos que si sim-
plemente deseamos la identificación de los individuos situados do se hallan en buen estado de salud, suficientemente descan-
sados, y después de haber sido tomadas las precauciones para
en los extremos.—Para demostrar una diferencia significati- asegurar que habrá «rapport». Cuanto mayor sea el control
va entre dos puntuaciones, las diferencias entre las mismas
14
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 211,
deseado sobre estas fuentes de inseguridad, mayores son los demos llegar a la fiabilidad de un procedimiento cualquiera
recursos necesarios para disponer. de medida hasta una aproximación al 1,00, tal como desea-
Existen dos métodos muy potentes para aumentar la fiabi- mos, siempre que podamos añadir operaciones de medida in-
lidad de un procedimiento de medida, que suponen la selec- definidamente sin alterar su naturaleza en ningún aspecto im-
ción y acumulación de operaciones de medida más bien que portante. Si la correlación entre la proporción de tiempo
cambios en las condiciones bajo las cuales se efectúan las ope- invertida en conferencias por un líder de grupo durante un perío-
raciones. Estos métodos pueden ser ilustrados más claramen- do de quince minutos y otro período siguiente de igual du-
te cuando la «operación de medida» consiste en la adminis- ración es de 0,10. será de escasa utilidad una medida de la
tración a un sujeto de un determinado ítem de un «test» que, proclividad hácia las conferencias basadas solamente en la
supera o fracasa; no obstante, los mismos principios son vá- observación durante tal período de tiempo. Pero si podemos
lidos cuando la operación de medida consiste en la adminis- fundamentar la medida en la media de los resultados de cin-
tración de otra clase de ítem de «test», o la evaluación de al- co períodos de quince minutos cada uno, la fiabilidad puede
gún aspecto del comportamiento del sujeto por un determinado esperarse que aumente hasta 0,36. Y si se puede obtener la
observador. medida de resultados de diez períodos de quince minutos (de
El primer método para aumentar la seguridad es añadir. la misma forma que se ha descrito), la fiabilidad de nuestra
operaciones de medida del mismo tipo de las utilizadas al prin- medida aumentará probablemente hasta cerca de. 0,53, en tan-
cipio, y asignar al sujeto una puntuación basada en la suma de to que si podemos tener a nuestra disposición la media de 100
los resultados de todas las operaciones de medida. En la si- períodos de observación, se puede esperar alcanzar una fiabili-
tuación de aplicación del «test», ello significa el aumento de dad de más de 0,90. El mismo principio tiene aplicación cuan-
la longitud del «test». En la situación de observación, se tra- do añadimos ítems individuales a un «test» psicológico.
duce en un aumento del número de observadores, o el núme- La fórmula Spearman-Brown supone que la correlación
ro de ocasiones en que cada sujeto es observado, o ambos ca- entre cualquier operación de medida, o ítem, y cualquier otro
sos. Si la correlación entre los ,,resultados de cualquier opera- ítem es aproximadamente la misma para todos los pares de
ción de medida y otra análoga es aproximadamente la misma Ítems estudiados; en la medida que añadimos fte.ms u opera-
dentro de las series de operaciones que estamos utilizando, ciones de medida que no se correlacionan co,n los restantes,
existe una fórmula muy sencilla, conocida como la de Spear- nuestros resultados actuales se habrán alejado de los previs-
man-Brown, que nos permite predecir con aproximación el tos por la fórmula.
efecto del aumento del número de operaciones de medida 15 .
Un método alternativo de aumento de la fiabilidad co-
mienza por suponer que existen diferencias apreciables en la
Nr 'correlación de los ítems entre sí. El problema consiste enton-
1 + (N — 1)r ces en seleccionar de entre todos los ítems posiblemente dis-
ponibles u operaciones de medida aquellos que guardan una
Un examen detenido de esta fórmula nos muestra que po- correlación mayor entre sí, y aumentar lit fiabilidad del pro-
cedimiento de medida en conjunto mediante el aumento de
15 En esta fórmula r es la correlación entre cualquier operación su consistencia interna.
de medida con otra análoga, N es el número de operaciones de medi- Este método ha sido raramente utilizado fuera del campo
da, y r", es la correlación entre la suma o media de operaciones N de los «tests» psicológicos (incluida la medida de actitudes),
de medida de esta determinada clase y la suma o media de otras
operaciones N de la misma clase. Fundamentalmente, r es la medida pero en este aspecto lo ha sido con bastante éxito. La prácti-
de la fiabilidad o seguridad de un test consistente en una sola ope- ca más común es comenzar con una serie bastante extensa de
ración de medida, en tanto nui es la presunta fiabilidad de un test Ítems, calcular una puntuación basada en cada ítem, y otra
consistente en N número de operaciones de medida de la misma clase.
La fórmula de Spearman-Brown es tratada en la mayoría de los puntuación fundada en respuestas a la serie total de ítems.
manuales de medida mental. Véase, p. ej., Gulliksen (1950) o Guilford A continuación para cada ítem es correlacionada con la pun-
(1954). tuación total, y se seleccionan los (tenis que muestren una co-
212 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES . DE MEDIDA . 213
rrelación más alta con dicha puntuación. Estos Ítems se di- una vecindad distinguida es que aquéllos gradualmente van
viden en dos grupos equivalentes; se calculan dos nuevas dándole un ambiente típicamente judío.
puntuaciones basadas en los. dos grupos de ítems selecciona- E. La mayoría de los hoteles deberían negar la admi-
dos; y estas puntuaciones son correlacionadas para propor- sión a los judíos, como norma general.
cionar una medida de la fiabilidad del «test purificado». Si la
nueva fiabilidad no es satisfactoria, el «test» puede ser puri- A los cuestionarios se,J.es..pjgá no solamente
a_T__.. que manifes-x._.
ficado posteriormente de la forma descrita, o pueden ser aña- taran su acuerdo desacnergo, con ca ítem. mita aue
didos ítems adicionales del tipo representado por los ítems casen él~e_s_tkopinión. desde «acuerd,q_ total» hasta ato-
seleccionados. W-Sposición», - ttlesacuerdo». La respuesta a cada ftem fue
Mejor que correlacionar la puntuación para cada ítem con puntuada en tina escalaqiiibad_esde 1 al an-
la asignada para el «test» total, la finalidad de incrementar la tisemitismo) hasta 7 (total antise mifimó), con un •
consistencia interna puede ser alcanzada del siguiente modo : eat2rPara--eedtp-itenirfner~Plltaaas las puntuacio-
se dividen los sujetos en dos grupos—uno de puntuaciones al- nes medias del 25% de los que puntuaron más bajo en la
tas y otro de puntuaciones bajas—sobre la base de sus pun- totalidad del «test»; la diferencia entre las dos medidas fue
tuaciones totales. Si el número de sujetos es bastante nume- tomada como «poder discriminatorio» del ítem. Las cifras pa-
roso, como debería ser, se toman grupos extremos—digamos, ra los cinco ftems son las que se dan en la siguiente tabla:
el veinte por ciento superior y el veinte por ciento inferior. Si
un ítem es consistente con la serie completa de ítems, en- PI1NTVACION MEDIA
tonces la proporción de sujetos con puntuación alta que res- Item
‘ rPilina
scu der
vo
Media para
todo el grupo
ponden al ítem en un determinado sentido debería ser sig- 25% 26% ....---
Interior
nificativamente distinta de la correspondiente proporción de.
superior
sujetos de puntuación baja. Estos ítems son muy consistentes 4,48 3,45
con la serie total que contiene• las mayores diferencias en la A 5,86 1,38
B 2,89 1,00 1.89 1,67
dirección adecuada. C 5,30 1,19 4,11 2,84
Como ejemplo, vamos a considerar el procedimiento uti- D 5,28 1,32 3,96 3,23
lizado en la elaboración de una escala de antisemitismo para E 2,22 1,05 1,17 1,46
uso de la investigación titulada «Personalidad autoritaria»
(Adorno y col., 1950). Fue administrado un cuestionario con-
sistente en 52 (tems referido a judíos, a un grupo femenino Es evidente que los ítems A, C y D, distinguieron de forma
de estudiantes. Veamos los resultados de las respuestas a cin- precisa entre los sujetos de altas y bajas puntuaciones. En
co de los ítems del «test»: estos tres items, aquellos que puntuaron alto en antisemitis-
mo en el «test» total, tomaron una posición media de acuerdo
A. Una dificultad con los comerciantes judíos es que moderado, en tanto los que puntuaron bajo en la totalidad
forman un círculo cerrado y en él conviven, de tal forma del «test» tomaron una posición media entre desacuerdo mo-
que un gentil no tiene oportunidades para la competencia derado y total. Los ítems B y E, por otro lado, mostraron mu-
con ellos. cha menos diferencia entre sujetos de alta y baja puntuación;
B. Los colegios deberían adoptar un sistema de cupos la totalidad del grupo mostró tendencia al desacuerdo con es-
por el que limitasen el número de judíos en aquellos estu- tos ítems. Los ítems A, C, y D fueron mantenidos; los (tenis
dios en que ya existen demasiados judíos. B y E fueron eliminados.
C. Los hombres de empresa que ocupan a mucha gen- Es importante reconocer que el proceso de eliminación de
te deberían llevar cuidado en no contratar a un excesivo iteras de un «test» o escala de actitud mediante el criterio de
porcentaje de judíos. consistencia interna siempre resulta en un cambio de la '«de-
D. El problema de permitir a los judíos asentarse en finición de trabajo» de lo que se está midiendo (véase capítu-
lo 2). Este cambio es efectuado siempre en la dirección de es-

trechar y restringir la definición de trabajo. Cuán lejos pueda
llevarse este proceso depende de la finalidad de la investi-
gación y de la determinación de la característica que el investi-
gador trata de medir. El límite extremo del proceso de purifi-
cación estaría representado por una serie de items que se
correlacionasen de modo perfecto entre sí y que difiriesen sola-
mente en dificultad o «aceptabilidad». Una serie semejante
4
, de ítems corresponden al concepto de un «teste totalmente ho-
-k mogéneo o una escala unidimensional, que serán tratadas más
'1 adelante en el capítulo 10.
Otro punto importante a tener en cuenta con respecto al
método de consistencia interna es que solamente está relacio-
nado con la equivalencia de dos series de ítems u operaciones
de medida. Puede reducir la falta de fiabilidad resultante de
la deficiencia en la equivalencia de los ítems, pero no hace
nada por reducir la falta de fiabilidad resultante de la inesta-
bilidad de las respuestas del sujeto a las variaciones en las
condiciones en que se efectúa la medición. El método de in-
cremento del número de operaciones de medida puede ser
utilizado para reducir estas fuentes de no fiabilidad si existe
la posibilidad de distribuir las operaciones. de medida fuera
del tiempo o bien distribuirlas sobre un número de condicio-
nes distintas de medida. Si cualquiera de estos procedimien-
tos es realizable, el investigador debería preguntarse : «Lo que
yo quiero medir, ¿es realmente el nivel medio de esta carac-
terística en una diversidad de situaciones, incluso si no exis-
tiera mucha consistencia en la característica de una situación
a otra, o bien es algo más específico lo que quiero medir?» La
respuesta a esta pregunta determinará la postura a adoptar
para aumentar la fiabilidad de su procedimiento de medida.

002 - Selltiz

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

002 - Selltiz

Hochgeladen von

Copyright:

Verfügbare Formate

2 MEDICIÓN Y DISEÑO

Material disponible en los Servicios del CECSo

cias sobre la natiraleza de un objeto, persona o grupo; sus

ea.lítico. Keitif el razonannento es como sigue : «Creo que este

l se harían sobre la e de la serie de -Práposiciones en las que

próporcionarán los mismos resultados en el grado en que las

ofrecido en segunda administraanqüe -iii~

lo 2). Este cambio es efectuado siempre en la dirección de es-

Das könnte Ihnen auch gefallen