Beruflich Dokumente
Kultur Dokumente
OBLIGATORIO
C. SELLTIZ - M. JAHOgA - M. DEUTSCH
S. W. OK
24 copias
(0)
MODOS DE INVESTIGACION .
EN LAS RELACIONES SOCIALES
SEPTIMA EDICION
INSTITU.L, DE
ESTUDIOS SOCIALES
020501002
EDICIONES RIALP, S. A.
MADRID '
dios de elaboración de afirmaciones acerca del fenómeno en personas clasificadas como «favorables» en una medición fue-
el que se está interesado pueden ser elaboradas dentro de ran clasificadas como «no favorables» en una segunda medi-
la misma técnica de recogida de datos, o puede ser lleva- ción realizada en un tiempo y bajo unas circunstancias en
da a cabo como un complemento de la misma. Un cuestio- que no hely razón para suponer que sus sentimientos habían
nario de actitudes que facilita una puntuación que sitúa a cambiado.
una persona dentro de una escala de «favorable-no favora- Además de ser dlido y seguro, un instrumento de medi-
ble» no solamente provee la recogida de datos necesarios da debe ser capaz de hacer ,clionG'oug lo suficientemente
para una estimación de la posición de la persona, sino que finas para el propósito que sirve. Los instrumentos difieren
también incluye las normas para realizar tal estimación. Por en la especificidad o exactitud con t
_gatan-de localizar la
otro lado, una entrevista no estructurada sobre el mismo te- posición deTü».k1uier persorIa--cOn respectó- a -las—cáráaérígz
ma puede reunir los datos necesarios, pero un sistema codi- ticas que van a medirse. Así, p. er; einstrur0gito de me-
ficado (es decir, una colección de reglas para la utilización dida muy burdo podría distinguir so ente dos posiciones
de los datos) se precisa para la estimación del grado de la en las evaluaciones de los visitantes con relación a los ame-
actitud favorable o desfavorable de la persona. La discusión ricanos: «favorables», «no favorables». Un instrumento algo
en este capítulo y siguientes aclarará esta distinción. más finaméñfe-ginduado. dráfirigt-lia entre «favorables», «neu-
trales», «no favorables»; una técnica todavía más finamente
Las técnicas de recogida de datos y las normas para su;
graduada distinguiría varios grados de «favorable» y «no fa-
utilización, para ser útiles, deben ofrecer una información, vorable». Si nuestro instrumento de medida solamente pudiera
que no solamente sea significativa, sino libre de errores sis-I distinguir- dos categorías, nuestro estudio sería incapaz de
temáticos; es decirja._ debe producir una._info ida.11 revelar muchos grados socialmente importantes en las acti-
Supongamos que eri To'lle - los -visitantff ingleses se tudes; p. ej., de «no favorable» a «neutral» o viceversa, o de
trata de centrarnos en sus evaluaciones con respecto a los
«ligeramente favorable» a «marcadamente favorable».
estadounidenses. Un estudio que utilice técnicas que lleven, Además de la exigencia de la capacidad de hacer distin-
por ejemplo, a que una proporción sustancial de personas con
ciones sutiles, los objetivos de la investigación a menudo pi-
sentimientos favorables sea clasificada como no favorable, no den que los procedimientos de recogida de datos nos permitan
puede presentarse con conclusiones aceptables. determinar cuánta gente difiere en una determinada ca-
Un buen procedimiento de medida debe también ser se- racterística. En una de las secciones finales del capítulo que-
guro; es decir, medidas independientes pero comparables del dará aclarado que tales afirmaciones pueden ser hechas de for-
mismo objeto (o actitud, o lo que sea) debería proporcionar lila significativa, solamente si los -procedimientos de medida
resultados análogos (siempre que, por supuesto, no haya ra- , abarcan escalas que tienen unidades iguales así como otras ca-
zón para estimar que el objeto medido ha cambiado entre las racterísticas determinadas.
dos mediciones). Una vara de medir, pongamos por caso, es Un último punto debe ser destacado. La medida de una
un instrumento altamente seguro. En circunstancias ordinarias, persona, objeto, acontecimiento; etc., e ide im_atri :
una mesa que mide 90 centímetros de larga un día, medirá 90 bio determinado presupone que la—p-e— rsona o el objeto_ pue-
centímetros el día siguiente, y el siguiente;• las variaciones den ser descritos adecuadamente en términos de tal atributo.
parecen ser desechables por diversos motivos prácticos. Sin ün- intento de medida de un atributo déterminado puede ser
embargo, una cinta métrica hecha de una sustancia elástica improcedente para algunas personas, objetos, etc. Así, por
sería insegura en extremo; la mesa puede medir 88 centíme- ejemplo, no tendría mucho sentido preguntar a una persona
tros de larga un día y 92 centímetros el próximo, según haya en qué grado es favorable al positivismo lógico si tal persona
sido más o menos estirada la cinta. De forma semejante, un no tiene un conocimiento de la filoSofía de la ciencia. Des-
instrumento establecido para medir sentimientos con respec- graciadamente, no siempre está a 11 vista si la medición en
to a los americanos debería ser considerado inseguro si las términos de un determinado atributo es o no relevante para
174 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 175
una determinada persona.'Especialmente en los casos de pre- Así, pues, la variación entre puntuaciones individuales con
guntas sobre opiniones 'd. :actitudes, muchas personas pueden respecto al instrumento de medida administrado a un grupo
ser inducidis -a dar-f_l
eip3- tás` en asiuitos-aceica-21erlo.wciIIKs- de sujetos procede de un número de distintos factores con-
no tienen realmente opinión o actitud. Francamente, los r - tribuyentes. Parte de la variación puede ser atribuida a ver-
sPltados de tales medidas notienen significad& guna o la daderas diferencias entre los sujetos en la característica ob-
tienen en muy escasa medida.- existe una solución senci- jeto de medida; parte de la misma representa «errores» de
lla para esta dificultid- Estando alerta, sin embargo, el in- medida. El problema básico en la evaluación de los . resultados
vestigador puede, bien incorporar a sus instrumentos de me- de cualquier medida es el de la definición de lo que han de ser
dida la previsión para asegurarse de si la medida es o no consideradas como verdaderas diferencias en la característi-
significativa para un determinado sujeto, bien .puede omitir ca que se está midiendo y que ha de ser tenido como varia-
mediciones que no parecen ser significativas para un consi- ciones debidas a error en la medición 1.
derable número de sujetos. Una vez más, un período de in- Consideremos brevemente algunas de las posibles fuentes
vestigación exploratoria puede ayudar a proporcionar una ba- de diferencias en puntuación en un grupo de personas :
se para el enjuiciamiento de si la medida de un atributo de- 1. Verdaderas diferencias en la característica ue se inten-
terminado es significativa para un grupo dado. ta medir.—En lrgituación ideal de medidas, todas las diferen-
cias en puntuación entre individuos serían debidas a sus dife
repelas en la -característica que se in-tent
á_pe
-- dir..--Por ejemplo,
VARIACIONES EN PUNTUACIÓN EN LOS INSTRUMENTOS DE MEDIDA si se - tratara de medir la actitud hacia la religión, todas las
diferencias. en puntuación deberían ser achacadas a las diferen-
La medida siempre tiene lugar en una situación más o me- cias individuales, en su actitud respectiva; ninguna de las
nos compleja en la que innumerables factores pueden afectar diferencias reflejaría variaciones casuales o efectos de otras
a las características objeto de medición y al proceso de medida. actitudes.
Se intenta controlar o mantener constante la más importante 2. Verdaderas diferencias en otras características relati-
de estas variables y se espera que la variación de los factores vamente estables del individuo que afectan su puntuación.
no controlados operará de modo que eliminará los efectos del Pocas son las técnicas disponibles al científico social que le
otro. La afirmación de que un cuerpo tiene una cierta lon- provean de medidas «puras» de cualquier característica de-
gitud, -p. ej., es exacta solamente en relación -Con-
, Miirpresun.: terminada. Variables generales como la inteligencia, educa
la serie de condiciones, entre otras características del sistema ción, información, status social y diversas características de
(temperatura, velocidad, etc.) de las cuales la longitud esun la' personalidad «contaminan» frecuentemente los resultados
atributo. En el grado en que estas características estén rela- de un cuestionario deactitud o la valoración de un observa-
cionadas con la longitud y en el grado en que cambien, puede dor. Es más, la puntuación de los individuos en el re-
esperarse, desde luego, que el instrumento de medida y la flekrán no _solamente las -di rencias en a cterística_sffic
longitud del objeto sean medidos para el cambio. De modo se está midiendoi. sino tabi aidifcias en otras
semejante, la medida de cualquier característica psicológica o Así, p. ej., EdwaYds—(1957b), ha mostrado que el
social presupone una serie constante de condiciones conoci- número de personas que aceptan o están de acuerdo con una
das entre los factores relevantes de la misma y del proceso determinada afirmación en un cuestionario está altamente re-
de medida. Desgraciadamente, los conocimientos e intentos de lacionada con «el grado de deseo social» de la posición pre-
control raramente son totalmente adecuados. Como consecuen- sentadaez--IF-ft" i í,--lk
las diferencias en puntuaciones clan
cia, los resultados de la medida reflejan no solamente la carac- instrumentos que preguntan al cuestionado que indique su
terística que es medida, sino también otros factores descono-
cidos que afectan a las características objeto de medida y al 1 Véase THORNDIKE (1949) para un tratamiento más detallado de
proceso de medida. este ensayo sobre las fuentes de las variaciones en puntuación.
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 177
176 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
agrado o desagrado con afirmaciones sujetas a consideraciones sujeto. Si las situaciones de medida varían de persona a per-
de deseo social pueden-reflejar diferencias en el deseo de ad- sona o de una medición a otra, una gran parte de variación
mitir que se mantienen posiciones «indeseables», así como di- en puntuaciones parece resultar de estos factores, aparte de
ferencias en la característica que el instrumento trata de me- las diferencias verdaderas entre los individuos con respecto
dir. Así, p. ej., las puntuaciones en un «test» de actitud pue- al atributo que se mide.
den ser influidas no solamente por las actitudes individuales 5. 21 ec a variaciones en la administra.
i erencias debidas
hacia el objeto en cuestión, sino también por el deseo o aver- ina ua
iziárs.—Los m é to d os y tuuformes de administra '-
sión ck la wwmitesta a admitir que i- ción de un instrumento de medida pueden contribuir a las
nion es nente admitid as_com_o_
--- impopu
1"---W.--
ares,D e modo variaciones en puntuación. Los propios realizadores de la en-
semejante, las diferencias en puntuaciones en «tesis» de !per- trevista ued • . . 're. un •egs . . orma u. .
sonalidad» pueden reflejar diferencias en el deseo de admitir alterar el orden de las mismas, omitir preguntas, etc.;
que se tienen sentimientos generalmente considerados «neuróti- de tal forma que una entrevista no sea comparable con otra,:
cos» o formas de comportamiento socialmente repudiadas, así, Un encargado de aplicar el «test» con escasas cualidades de
como diferencias verdaderas en los sentimientos y conductas amenidad puede dar un giro distinto a la entrevista; un encarga-
sobre las que son interrogados los sujetos. do de la clasificación que se halle fatigado puede mirar super-
3. Diferencias debidas a factores personales transitorios.— ficialmente las respuestas en vez de leerlas detenidamente para
Diversos factores personales, tales como humor, iiirglTialud, su clasificación ; un observador cansado puede no ser ca-
ajuste mental, grado de distracción, etc., pueden variar inclu- paz de anotar el proceso constante de cambio de un grupo.
so en un corto espacio de tiempo. En la mayoría de los casos, Todas estas variaciones en la utilización' de un instrumento de
podría esperarse que el estado de la persona ejerciera su in- medida pueden afectar en gran modo el grado de consistencia
fluencia sobre las respuestas primordialmente a través de la con que un determinado clasificador, observador, etc., ordena
forma en que define su situación de medida. Así, p. ej., si y clasifica las respuestas de distintos sujetos y la consistencia
está fatigado, su respuesta a la situación de medida puede en clasificación de un observador, ordenador, etc., a otro.
ser : «Voy a despachar esto lo más pronto posible; es dema- Por un lado la situación en que la medición es realizada y,
siado aburrido preocuparse de ello ahora.» Bajo las condicio- por otro, el método de administración, pueden influir en la
nes adecuadas de motivación y confianza, estos factores per- orientación con la que responde el sujeto, p. ej., si responde
sonales pasajeros pueden tener a menudo efectos mínimos. o no en términos de lo que cree ser cierto, o de lo que él
, Los instrumentos de medida difieren en el grado en que piensa que el entrevistador o clasificador considera la res-
su aplicación es afectada por factores personales pasajeros. ' puesta «buena», etc.
La utilidad de un instruinento para medir ciertas caracterís- 6. pji erencias debidas al Mtodo de muestreo de los
ticas distintas a estas . pasajeras decrece, por supuesto, con el ítems.—Cualquier instrumento de medida afectá -
grado en que las puntuaciones del mismo son influidas por mente a una sola muestra significativa d¿ la característica ob-
tales factores. jeto de medida. Así, un cuestionario de actitudes contiene so-
4. 1219_p.enias_debidas a fç res !de situación».—Las va-
. lamente unas cuantas preguntas de un universo de preguntas
riaciones en la situación en que la me ida tiene lugar, juegan relevantes que hubieran podido ser incluidas. Si concebimos
a menudo un importante papel contribuyendo a las diferencias una puntuación en términos amplios, como medida de una
en puntuación entre un grupo de sujetos. Así, p. ej., una entre- actitud, y no en sentido estricto, como la medida de un cues-
vista con un ama de casa puede quedar muy influida en sus tionario determinado, es evidente que las variaciones en acti-
resultados por la presencia del esposo. El anonima la fal- tud tal como han sido medidas por distintos cuestionarios se-
ta del mismo en la situación de medida, ll_presencia o fa ta rán dependientes, en parte, de la naturaleza de la muestra de
de ambiente de distensión, la seriedad o lieerezl, las distrac- preguntas incluidas en los cuestionarios. Así, p. ej., en un cues-
ciones diversas, etc., todo tiende a afectar las respuest as tionario referido a las actitudes hacia los negros, las previa-
12
178 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 179
tas incluidas puede ocurrir que sean aquellas en que una de- semana de clases», otros como «la última semana», es decir,
terminada persona está más dispuesta a responder favorable- durante las vacaciones. La sencillez, la concreción, y un alto
mente de como lo haría en otro cuestionario elaborado con grado de determinación son circunstancias deseables en los
una muestra distinta de preguntas. instrumentos de medida 2 .
Es obvio que, si otras cosas son iguales, un cuestionario 8. Diferencias debidas a factores mecánicos.—Circunstan-
con una sola pregunta parece ser una muestra menos adecuada cias tales como la rotura de lápices o bolígrafos, respuestas
del universo total que otro cuestionario con treinta preguntas. colocadas en casillero distinto, instrucciones poco legibles,
De modo semejante, las clasificaciones basadas en unas pocas falta de espacio para anotar enteramente las respuestas, jue-
observaciones o realizadas por un observador solo no son tan gan su papel dificultando un funcionamiento más efectivo del
seguras como las clasificaciones basadas en muchas observa- instrumento de medida. Muchas fuentes de error pueden ser
ciones realizadas por varios observadores. El aumento del nú-' eliminadas mediante la adecuada atención a los factores me-
mero de preguntas (siempre que las preguntas añadidas seani cánicos en el momento de la presentación del estímulo y la
igualmente adecuadas al propósito del cuestionario dado), o de recogida de respuestas. Es imposible redactar una lista de los
la cantidad de material relevante sobre el que la puntuación muchos detalles mecánicos que pueden intervenir; y van desde
se basa, hace que la variación en puntuación atribuible a estas4 la forma de presentación del cuestionario al tipo de letra, o
causas se haga menor. errores de imprenta, etc.
7. Diferencias debidas a la falta de claridad del instrwl 9. Diferencias debidas a factores en el análisis.—Con fre-
cuencia se desdeña la posibilidad de errores en lbs procesos
de puntuación, tabulación, análisis, tabulación estadística, etc.
Estos procesos pueden ser fácilmente comprobados, pero, caso
de no hacerlo, pueden introducirse en los datos grandes dife-
ras en la característica qje s intenta medir. Con frecuencia! rencias en puntuación debidas a tales errores.
laícategoÉtas en un instrumento de clasificación o de obser- Estos son. piles. algunos de los nrincipes factores ql_ te
vación son complejas y ambiguas; distintos ordenadores u ob- influyen en los resultados obtenidos a través de_cualouier
servadores pueden interpretar las categorías de forma distinta proceso de medida. Un examen de la lista aquí expuesta in-
y asignar respuestas semejantes a distintas categorías. Las dica' varias fuentes de «error»—tales, las diversas influencias
preguntas de la entrevista pueden ser tan largas, o redactadas sobre la puntuación más que la influencia sobre la caracterís-
en una forma tan compleja, que algunos entrevistados pueden tica que se intenta medir. Es ya tradicional clasificar los erro-
no entenderlas; las respuestas de estos sujetos apenas pueden res en constantes- (sistemáticos o de sesgo) y de azar (o varia-
constituir una indicación adecuada de la característica o acti-i 611_11 fin error constante es -@ -in~Cido in- la --riiaida—p—r o
tud a la que las preguntas están referidas. Palabras tales como algún factor que sistemáticamente afecta a la característica
libertad de empresa o libertad simplemente, que están emo- objeto de medida o al propio proceso de medida. Los factores
cionalmente coloreadas o que tienen connotaciones especiales semejantes a los tratados en el apartado 2 de este capítulo son
no asequibles a toda la gente a quien se aplica el cuestionario, de este tipo. Cuando un factor así pasa desapercibido, sus
pueden mostrar reacciones distintas no directamente relacio- efectos no son tomados en consideración a la hora de evaluar
nadas con la característica que el instrumento quiere medir. los resultados de la medida. El error de azar es debido a aque-
Incluso preguntas aparentemente sencillas pueden ser confusas llos aspectos pasajeros de la persona, de la situación de medi-
si el contexto es ambiguo. Tomemos, p. ej., la siguiente pre- da, del procedimiento de medida, etc., que parecen variar de
gunta 'utilizada en un estudio de una comunidad estudiantil: una medición a otra, aunque la característica que se intenta
«Durante la última semana, ¿visitaste la casa de algún pro-
fesor?» Si la entrevista tuvo lugar inmediatamente después 2 Esta afirmación no es aplicable cuando la característica que el in-
de una semana de vacaciones, algunos entrevistados pueden in- vestigador desea medir es precisamente la forma en que un sujeto inter-
preta una situación ambigua—como es el caso de muchas técnicas pro-
terpretar la pregunta como significando «durante la última yectivas (véase capítulo 8).
MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA . 181
180
medir no haya cambiado. Un error de azar se muestra en la sus respuestas y, sin embargo, hay una gran presión sobre los
falta de consistencia de mediciones repetidas o equivalentes de niños con prejuicios para que den respuestas exentas de pre-
la misma persona, objeto, suceso, o del mismo grupo de perso- juicio. Y así, la puntuación de un niño sin prejuicios pt de u)
nas, objetos o sucesos. Como se verá en las siguientes seccio- reflejar con bastante exactitud su verdadera actitud, en
nes de este capítulo, la estimación o validez se hallan afectadas que la del niño con prejuicio puede ser alterada en un .grado
por ambos tipos de errores; la estimación del grado de con- desconocido, a partir de su posición verdadera con respecto
fianza sólo tiene en cuenta—generalmente—los errores de al problema planteado en el «test». Como consecuencia, am-
azar. bos niños tenderán a asemejarse—exentos los dos de prejuicio.
La administración repetida del «test» o de protocolos seme-,
LA VALIDEZ DE LAS MEDIDAS jantes bajo las mismas condiciones no producirán el falsea-
miento de las respuestas de los niños con prejuicios y que apa-,
Ciertas preguntas básicas deben ser hechas a cualquier ins- recerían como errores de azar, puesto que de nuevo habría
trumento de medida: ¿Qué es lo que mide? ¿Son relevantes una desviación de las respuestas en la misma dirección. Su-
los datos que proporciona para la característica en que se está pongamos ahora que se desea utilizar el «test» para evaluare
interesado? ¿Representan las diferencias en puntuación ver- la eficacia de un curso en relaciones humanas, comparando
daderas diferencias en las características que se intenta medir las puntuaciones de los niños que han asistido al curso con
o también reflejan la influencia de otros factores? un grupo de control que no lo haya hecho. Si los dos grupos
La validez de un instrumento de medida puede ser defi- de niños—los que tienen prejuicios y los que no los tienen—
nida como el grado en que las diferencias en puntuación re- dan respuestas catalogadas como «no prejuicio», el «test» no
flejan verdaderas diferencias entre individuos, grupos, o si- puede revelar efecto ninguno producido por el curso.
tuaciones en la característica que se pretende medir, o dife- ¡ Teniendo en cuenta que, en general, no sabemos la verda-
rencias ciertas en el mismo individuo, grupo o situación de dera posición de una persona con respecto a la variable que
una ocasión a otra, más que los errores constantes o de azar._ tratamos de medir, no hay una forma directa de determinar
Algunos de los factores hasta aquí tratados como contribu- la validez de la medida. (Si hubiera otra fuente de informa-
yentes a las variaciones entre puntuaciones individuales 'pue- ción como posición verdadera con respecto a la variable, con
den conducir a errores constantes. Es obvio que las diferen- frecuencia no sería necesaria otra medida de la variable, a
cias ciertas entre individuos en características permanentes ' menos que el procedimiento de medida utilizable fuese ex-
distintas alas medidas por el «test», que afectan a las pun- tremadamente inaccesible o caro o de cualquier otra forma
tuaciones obtenidas con el instrumento de medida, serán cau- nada práctico o inadecuado en su uso.)
sa de errores constantes. Así, también, pueden afectar los – A falta de un conocimiento directo de la verdadera posi-
factores del propio instrumento o de las situaciones en que ción del individuo con respecto a la variable que se está mi-
se utiliza. Así, p. ej., los procedimientos de medida que descan- diendo, la validez de un instrumento se mide por el grado
san principalmente en los procesos intuitivos complejos de ob- en que sus resultados son compatibles con otras evidencias
servadores han introducido con frecuencia errores constantes /significativas. Que sea evidencia significativa depende de la
a través de la percepción selectiva, de la repetición, o del naturaleza y propósito del instrumento de medida. El objetivo
informe. de algunos «tests» es proporcionar una base para prediccio-
Téngase en cuenta que los errores constantes que aquí se nes específicas acerca de los individuos; p. ej., si tendrán éxi-
discuten se refieren a puntuaciones individuales y, por im- to en un cierto tipo de trabajo, si necesitan o no ahora o más
plicación, a comparaciones de puntuaciones de grupos de pun- adelante tratamiento psiquiátrico, etc. Otros «tests», sin em-
tuación. Así, p. ej., supongamos que se administra un «test» de bargo, no son utilizados de esta forma. Aunque están desig-
prejuicio racial a niños de un sector de la población en que el nados para medir determinadas características de los indivi-
prejuicio es mal visto. En esta situación, existe comparativa- duos, no conducen a predicciones definitivas acerca de 'cómo
mente poca presión entre los niños sin prejuicios para falsear los individuos actuarán en determinadas situaciones—al menos
182 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 183
teniendo en cuenta el estado actual de los conocimientos. Esta Así, p. ej., los «tests» que requieren que el individuo\eproduz-
, distinción en el objetivo .de los «tests» lleva a una diferencia ca un esquema complejo por medio de conjuntos, han mostra-
en el tipo de evidencia que se considera significativa para la do ser útiles para identificar en los individuos la habilidad
estimación de la validez. Y.n el caso de los «tests» cuyo obje- de reproducción de esquemas por sí misma; el individuo se
tivo es proporcionar una base para las predicciones en térmi- halla interesado en la realización del «test» solamente como un/
nos de algún criterio determinado (como el éxito en determi- índice de posible lesión cerebral. No necesita saber por qu¿
nado trabajo), la evidencia sobre la posición del individuo con la realización del «test» es un índice eficiente de la-caracterís-
respecto a tal criterio provee de una base de estimación de tica en que se halla interesado
la validez del «test». La ,investigación de la. , validez en estos Lo que es esencial en este intento de validación es que
términos puede ser descrita como pragmática; la validez es haya un criterio válido y razonable con el que las puntuacio-
juzgada en términos de la exactitud de las predicciones hechas nes del instrumento de medida puedan ser comparadasrff
sobre la base de los resultados del «test». general, la naturaleza de las predicciones y técnicas disponi-
Los instrumentos designados para medir características bles para su comprobación determinarán qué criterios son sig;
que no conducen a predicciones específicas no pueden ser eva- nificativos. En la validación del «test» de reproducción de es-
luados tan directamente. Debe buscarse otra evidencia _para quemas como índice de lesión cerebral, p. ej., los criterios evi-
proporcionar una base para juzgar si el instrumento:In- 2e ade: dentes serían otros índices ya bien determinados de lesión ce-
cuadamente o nó—el-conc-epp:5- qué:se mientamedir. Este pro- rebral, o bien las comprobaciones post mortem, en el grado en
cedimiento menos directo ha sido descrito como alidez c ns-' que puedan ser utilizadas. En el problema antes suscitado, de
tructiva. Estos medios de obtención de la validez se tan en identificación de los individuos necesitados de tratamiento
ias secciones que siguen 3. psiquiátrico o que parecen necesitarlo en el futuro, el criterio
más adecuado actualmente a la mano es probablemente el de
Validez pragmática diagnóstico independiente realizado por psiquiatras compe-
tentes, pero no se trata de un criterio infalible. Si el objetivo
Un intento de validación es la pregunta : ¿Es útil este ins- de un «test» es la predicción del éxito en los estudios en un
trumento de medida? ¿Puedo tomar decisiones con su ayuda centro determinado, el criterio debería ser las formas de gra-
mejor que sin ella? El investigador puede desear, p. ej., dis- duación del Centro en cuestión. Si el propósito es la predic-
tinguir entre individuos que, al tiempo de la medición, están ción del éxito laboral, bien puede confiarse en las calificacio-
«bien ajustados» y aquellos necesitados de tratamiento psi- nes de los supervisores de la profesión, como criterio, a me-
quiátrico. Un «test» que ayude al investigador a distinguir a ...nos que el trabajo sea de tal especie que pueda asegurar más
los individuos que difieren en su «status» esente se dice informes objetivos en cuanto a cantidad y calidad de trabajo
que, tiene zdez concurrente. Por otro a o, e mvestilail realizado.
puede desF1 predicción de qué individuos parecen estar Por supuesto que, en el plano ideal, debería ser perfecta-
necesitados de una futura acción psiquiátrica. La idoneidad mente válido y seguro el criterio por el que se comnaran las
del «test» para distinguir a los individuos que diferirán en el puntuaciones del instrumento de medida. La comprobación de
futuro es conocida con el nombre de validez predictiva. En am- predicciones contra un criterio que puede ser irrelevante, in-
bos casos, el intento de yaligarión adecuado, o inseguro, proporcionan una evaluación dudosa del
En el intento pragmático de validez, el interés se centra procedimiento de medida. En la práctica, no obstante, el in-
en la utilidad del instrumento de medida como indicativo o vestigador halla con frecuencia que no existe ningún criterio
previsor de alguna otra conducta o característica de la persona. totalmente comprobado; selecciona el que le parece más ?de-
3 Para el conocimiento de otros procedimientos distintos, si bien 4 No obstante, desde el punto de vista del avance del conocimiento
relacionados, descriptivos de intentos de validación, véase Cronbach científico, como algo distinto a la capacidad de hacer predicciones
(1949), Cronbach y Meehl (1955) y Recomendaciones técnicas para útiles, se puede estar interesado en saber por qué es útil el "test". Este
Tests Psicológicos y Técnicas de Diagnóstico (1954). punto será tratado con más detalle más adelante.
184 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 185
cuado y trata de tener en cuenta sus limitaciones y, si es po- este tipo. Cronbach y Meehl (1955), que primere acla-
sible, complementarlo con criterios adicionales. raron el concepto de validez construcdéltacar - on que- lis
El desarrollo de un criterio adecuado para la comprobación difiiacTon-es de -tales construcciones -cófársta- e-n- --- es dé-
de predicciones y, por tanto, la evaluación de la utilidad de iéries-cre-própóSitiónes acertia-déais relaciones _con otras vi---
los instrumentos de medida es una parte importante de la in- riablestra.s..construcciones_- o-Coinizortamientos_ci 't ectamente .
vestigación, que raras .veces recibe el tiempo o la atención que _observables. Así, por medio del examen de validez construc-
merece. Frecuentemente, aunque no exista un criterio perfec- tiva, eládécuado formular preguntas tales como las siguien-
to, la seguridad y validez de los criterios disponibles pueden tes: ¿Qué predicciones podrían hacerse, sobre la base de esta
ser mejoradas. En un estudio en que los datos de los super- serie de proposiciones, acerca de las relaciones con otras va-
visores son utilizados como criterios para la validación de un riables de puntuaciones basadas en una medida de esta «cons-
«test» predictivo del éxito en un determinado trabajo, p. ej., trucción»? ¿Son las mediciones obtenidas con la utilización
distintos supervisores pueden utilizar diferentes bases de jui- de este instrumento consistentes con estas predicciones?
cio de tal forma que sus clasificaciones no sean comparables. Tres aspectos estrechamente relacionados deberían ser des-
La seguridad y validez de sus clasificaciones pueden aumentar tacados en conexión con estas preguntas. Primero, las predic-
por medio de una cuidadosa especificación de las clases de ciones son de una naturaleza tal, y sirven una función en cier-
comportamiento que van a ser consideradas en la clasifica- to modo distinta, de aquellas supuestas en la determinación
ción de la realización del trabajo, por la claridad en la defi- de la validez pragmática. Consideremos una predicción sobre
nición de los puntos en las escalas de clasificación, por la cómo votarán los individuos en una elección nacional. Un
oferta de un período de entrenamiento en el que dos o más instrumento de medida puede tener el objetivo especifico de
supervisores clasifiquen o puntúen a los mismos individuos y hacer posible esta predicción. En este caso, el interés se halla
luego discutan las discrepancias en su clasificación, etc. Ge- en la exactitud de la predicción, y no es -necesario prestar aten-
neralmente, la medición conjunta de las puntuaciones por dos ción a los atributos psicológicos envueltos en la relación entre
o más observadores que están puntuando a los mismos sujetos el comportamiento individual en el «test» y su comportamien-
tiende a aumentar la seguridad y la validez 5 . to en el momento de votar. Sin embargo, una redicción acerca
de la votación pede Iambién estar en re aci n con el examen
Validez constructiva d-e-Tá- validez constructiva de un «test» de conservadurismo
-
servadora de cada individuo para penetrar en la determinación relación con otras variables, y los cambios en e instrumento
de su voto: tradición familiar, religión, status socioeconómico, ,dejledida-. Así,- p. ej., un--núni~v e— striáci• - centradas
tendencias en el voto de .sus amigos, esperanzas de beneficios en la hipótesis de que la asociación personal • miembros de
determinados si uno de los partidos gana. un grupo étnico distinto al propio tiende a llevar a la adop-
Segundo, en el caso de la validación pragmática, la capa- ción de actitudes más favorables con distintos res4iltados. Un
cidad de la medida para distinguir en términos de un -solo análisis de un determinado número de estos estudios indica
criterio hacia el cual se dirija es el «test» de su validez; en que las diferencias en resultados pueden ser tenidas-en: cuenta
el caso de validación e ceptQ, todas las prediccionew- en parte como términos de los aspectos específicos de la ac-
más viejos (que se intentaba presentar como simbólicas de do mutuo; por tanto, las técnicas distintas a la entrevista
personas dotadas de autoridad); historias acerca de escenas mostraron escasa correspondencia entre actitud hacia el padre
que contenían personas dotadas simbólicamente de autoridad; y actitud hacia los oficiales superiores. En tal situación, nos
un inventario autobiográfico; una actitud de estudio y super- enfrentamos con la cuestión de si los instrumentos de medida
visión; y un cuestionario sociométrico. no son válidos o si el concepto que se trata de medir (en este
Cada uno de estos métodos fue también utilizado para caso, «actitud hacia los personajes con autoridad») es falso en
medir una segunda característica : la actitud hacia las «per- algún aspecto. En este estudio, los investigadores razonaron
sonas sin autoridad» (condiscípulos, un antiguo compañero de que el número de los distintos métodos que habían utilizado
trabajo, «iguales simbólicos» representados por fotografías de proporcionaba una base para concluir que la dificultad estaba
personas jóvenes). Esta segunda característica—la actitud ha- en el concepto más que en los instrumentos de medida. Aun-
cia las personas sin autoridad—fue medida con objeto de de- que reconocieron que alguna de las medidas podría ser no vá-
terminar si las actitudes expresadas con respecto a las perso- lida, pensaron que no era legítimo afirmar que todos [los ins-
nas con autoridad eran verdaderamente específicas de tales trumentos] eran índices inadecuados del concepto «actitud
actitudes hacia las personas con autoridad o bien eran expre- hacia la autoridad». En vista del hecho de que ninguna de las
siones de actitudes hacia las personas en general. Si hubiese medidas mostraba alta correlación con otra, concluyeron que
una correlación altamente positiva entre la actitudes expresa- sus hallazgos requerían una modificación de la presunción de
das hacia las personas de autoridad y las que no la representan que cada individuo poseía una actitud generalizada , hacia la
—es decir, si las personas favorables hacia las personas con autoridad y que reflejaba su actitud hacia el padre.
autoridad también lo fuesen hacia los personajes no represen- De esta discusión parece deducirse que la validez del con-
tativos de autoridad y aquéllas no favorables hacia las no re- cepto no puede ser comprobada adecuadamente por un solo
presentativas de autoridad también lo fueran hacia las otras— procedimiento. La evidencia obtenida de un número vario de
podría concluirse que las afectadas por el primer grupo de fuentes es significativa : la correlación con otros «tests» y con
medidas no podían tomarse como actitud específica hacia los otros comportamientos, la consistencia interna de las pregun-
personajes con autoridad, sino como una actitud general ha- tas, la estabilidad a través del tiempo, etc. Qué grado de evi-
cia la gente. Por otro lado, si hubiese escasa o ninguna corre- dencia, a partir de cada una de estas fuentes, puede sostener
lación, o correlación negativa, entre las medidas de los dos la estimación de la validez del «test» depende de las relacio-
tipos de actitudes, podría concluirse que la primera serie de nes previstas en el conjunto teórico en que el concepto se
medidas obtuvo ciertamente la medida de actitudes relaciona- halla envuelto. Cuanto mayor sea el número de relaciones com-
das directamente hacia los personajes con autoridad. probadas y confirmadas, mayor será el soporte para el ins-
Como se demostró más tarde, las medidas de actitud ha- trumento de medida y para la teoría que lo sostiene.
cia las personas dotadas de autoridad mostraron tan poco
acuerdo que parecía no existía razón alguna para creer que
Relaciones entre los distintos ensayos de validación
cualquier actitud consistente había sido afectada; y así no
hubo discusión en el intento de determinar si . estas medidas Los ensayos «pragmáticos» y «de coacept9i . para la*
se referían a una determinada actitud que podía ser distingui- skni Mutuamente _excluyentm Un solo «test. o
-
da de la actitud hacia las personas sin autoridad. Las califi- instrumento de medida puede ser utilizado para un número
caciones obtenidas sobre la base de las entrevistas mostraron distinto de objetivos, y para cada propósito debe ser utiliza-
una alta correlación entre la actitud hacia el padre y la actitud do el método adecuado de validez Comprobatoria. ComiLL.m .
hacia los oficiales superiores; si este hubiera sido el único pro- sido_dotacado, la_estiqiación de la validez pragmática púe-
cedimiento utilizado, los investigadores podrían haber con- de ser incluida en la evaluación de la validez conceptual. Por
cluido que habían medido con éxito una actitud generalizada otrollado,_auicjiie
hacia los personajes con autoridad. No obstante, las puntua- doras de validez pragmática haa_sido_alcanzadas7s
ciones basadas en métodos diferentes mostraron escaso acuer- sIT:
iple del método de ensayo7errort_no hay motivo para no
190 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 191
investigar por qué dichas medidas son útiles—es decir, con- _Ityari
st caw, Así, un investigador interesado en el estudio del
siderando los conceptos supuestos y su relación con los cri- comportamiento de un líder de grupo puede tomar una mues-
terios variables. Tales investigaciones pueden llevar. al escla- tra de su comportamiento; uno interesado en la interacción
recimiento de los conceptos y, eventualmente, a la validación entre miembros del grupo puede recoger los cambios entre
de los conceptos de tales medidas o al desarrollo de medidas ellos.
alternadas que pueden tener validez pragmática y conceptual =Legislas, que se te en la clase de
a la vez. conducta en que el experimentador está interesado. a menu o
Pe hecho, existen buenas razones para no quedaj satisfe- ion conocidas como poseedoras de «aspecto de vufjp7 4; es
-.chos
_ con IiiWfifflire":"rnedida - -que mlade-so- ctaue lasignifiaci6n del instrumento de medi. • • .1 •
lo pragiii á ticamente7-EIT-tEarto-no- sea -entendido-e fize se intenta medir Plirfirn. • m o». Si tal pre-
sti- 'utilidad,- --
no—fi-ay seguridad de que las condicioara-e .1a s-u-néróli-él-ó1i5"jiátificada en algún casó .et- ' , nado, ello es
sean Válidas para cualquier aplicación determinada, en último caso una cuestión de opinión. Pero en la afirmación
-éñ cada aPliParíAn «nlamente /me_de prgcederse con la creen- j de esta opinión, Aeben ser tenidas en cuenta dos cuestiones
Eía ingenua que valdrá a esta .vez. Es más; en el grado en de importancia: si el instrumento mide realmente la clase
4-iie el- ensayo pragrn tico sé Ti-m-ita a sí mismo descubriendo de comportamiento que el investigador cree; 32 si es una
correlaciones empíricas sin ninguna preocupación por una ex- mutraes adecuada de esta clase de . comportamie . Con fre-
plicación teórica que vaya supuesta, se trata de un procedi- cuencia, en el caso demedidas de perfección y eficacia—don-
miento antieconómico. No permite generalización a otros pro- de la consideración de «aspecto de validez» es más apropia-
blemas; va a parar a un conocimiento que se halla aislado •y da—está . justificada la presunción de que el comportamiento
limitado más que interrelacionado y lógicamente fértil (Mar- que parece estar comprendido en el «tests es el que actual-
genau, 1950). mente se mide. Así, p. ej., si se está interesado en la eva-
luación de la adecuación de una persona como taquimecanó-
grafa a través de su ejercicio escrito, análisis de las cartas que
¿Es la validez de una medida evidente por sí misma? 4- escribe a máquina, desde el punto de vista de la exactitud, de-
En los ejemplos que hemos tratado, los datos proporcio- letreo, limpieza, velocidad, etc., parecería que provee de una
nados por los instrumentos de medida han sido utilizados co- evidencia claramente relevante. Sin embargo, podría ocurrir
mo índices de algún atributo del individuo y que no ha sido ocasionalmente que un «test» que parece medir una clase de
medido directamente. Así, las puntuaciones basadas en res- comportamiento se halla de -hecho midiendo otro. Suponga-
puestas a un cuestionario pueden ser utilizadas para diagnos- mos, p. ej., que damos una serie de problemas aritméticos a
ticar cvpredecir enfermedades mentales, o para inferir el grado un grupo de alumnos de curso octavo de enseñanza primaria
en que un individuo posee una característica no directamente y obtenemos un amplio rango de puntuaciones. Pero podría
revelada en el «test». Pero algunas medidas ...se ocurrir que las operaciones aritméticas supuestas pueden ser
sadas directamente_en-liWie de -Coiii-Portamiento_en_que-el realizadas por todos los miembros del grupo; las diferencias
investigadnr está-i~sapl,Los «tests, de realización son en puntuación pueden provenir de diferencias en la capacidad
frecuentemente de esta clase: la velocidad de lectura se mide para entender el lenguaje en que el problema se ha presenta-
por el cómputo de la .cantidad de un pasaje leído con com- do. El investigador debe estar siempre alerta ante posibilidades
prensión un tiempo determinado; la capacidad para resolver de esta clase.
problemas aritméticos se mide por el éxito en solucionar-una s unda consideración—si el Atest3....propordzi_ a o no
muestra de tales problemas; en la realización de un trabajo, una adecuada muestra '515 -blase decomportamiento
_ , _ con el
computando la cantidad y calidad de trabajo producido:la ..q-u-E-Sé- está tratando—requiere, en -principio, una completa
observaciones de ~miento . pueden también tener es- especificación deluniverso de comportamiento en cuestión y
Ins...catactuca
lti,s, si son utilizadas de forMa -descriptiva . más de todos los posibles Ítems del «test» que podrían ser utili-
que como _una base _pira inferencias acerca cíedinamismos zados para su medición. Con frecuencia ello es imposible, dado
192 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 193
que el número de posibles ítems del «testa pueden alcanzar ción de saber de antemano que su medida tiene una validez
el infinito. Lo Que síes posible. y esencial, es la cuidadosa con- satisfactoria, a menos que ello haya sido demostrado en estu-
sideración de • ue com..tiamiento - tamente el que se dios previos relacionados con la misma característica. Es más,
_ e 'no • •110 • as en raramente ocurre que un instrumento pueda ser presentado
como poseedor de una tan alta validez que no sea preciso un
.--edi- o. Supongamos,
prensión
p. ej., que se desea comprobar la com-
lectora. Es obvio que no puede reunirse todo el ma- perfeccionamiento. En el caso de la validez pragmática, el coe-
terial que ha sido escrito. en una determinada lengua y-selec-
cionar una muestra, ya sea muestra aleatoria o con otro cri-
terio. El investigador debe hacer una selección sin conocer el al:hecho -de que. el instrumento no mide
universo total. Pero sí-puede, o debería hacerlo, considerar si
los pasajes incluidos en su «test, se refieren a cuestiones -que -errore,s
—var - iiliies ---
en e ent en el ns inei Ttoit
pueden ser más familiares a algunos individuos que a otros, trie-d'WÉ'i-ies-faraFctiiistancias, es importante determinar el
y en qué casos el «test» -medirá el conocimiento del-tema--más ~p.-error variable éi-erlil~f n ir-
que la comprensión -lectora; si suponen peculiaridades de es- caso de ira validez conceptuaT,-no es e una s ..! . de „:
tilo que pueden presentar más' dificultades a unas personas mmnación -directa de validei.ven estas circunstanc ias, a e
que a otras, etc. dencia del grado de error_sanable-es-una-parte-~_sk
fá_eyjdencia_relegida a la_yallez.
A menos que haya sido demostrada previamente la validez
LA CONFIABILIDAD EN LAS MEDIDAS o fiabilidad, esta última característica de un instrumento de
medida debería ser determinada antes de su utilización en un
Como ya ha sido destacado anteriormente en este mismo estudio, mucho mejor que después. Si el instrumento de in-
capítulo, las puntuaciones de los instrumentos de medida re- vestigación se halla afectado de error variable, la verosimili-
flejan normalmente no .solamentellicatacteristica Que el ins- tud de llegar a resultados significativos queda minimizada.
trurtfertirála de iiedir. tino una variedad de errores , cons- Más que avanzar con instrumentos carentes de fiabilidad, se-
rá prudente aplazar la investigación e intentar aumentar su
grado de fiabilidad.
1Proce-dímiegto_de medida consIti" en. la . diterminaCión ,de en
até"Mélfida la va--'-26irdé- titilaciones entii-lidifida-s- él
debida á inconsistencias en ma me ---1 .- 5Warar"--
-7Cua7 me- Métodos para la determinacilki. de-la.
di-das comparables pero independtentes de una misma cosa, fiabilidad -de - la . medida
-
líder de grupo emplea en conferencias, comparado con otras pci- timar la estabilidad de la medida, ex ce ce ten
. ue es eneral-_ 1
sibles actividades. Puede ser asignado un solo observador con inerite-áídicáda dos veces-, -e- cww 6.--c--:on
n Io que-li--d nombre
. ----d-r
un cronómetro para observar al líder durante un período de de Pródtdinikerlto .de •Itest-retéstgra — - etifrevistac.,
mrána
quince minutos mientras se halla a cargo del grupo y anotar dr adiriimitrada a los niilliZiglvíduos en clisfiltos___mitos tie
el tiempo que dedica a conferenciar durante este tiempo. A lijo "condiciones equivalentes,x7enTonces se copaian los,
partir de este control el porcentaje de tiempo dedicado a char- resultados de las dos mediMs....No obstante, ñTl caso de
las puede ser fácilmente calculado. Luego el mismo observa- procedimientos de medida como los que aquí se exponen, y
dor puede realizar un control semejante del comportamiento que requieren una gran participación del individuo, se plan-
del líder del grupo en otra ocasión en que se halle a cargo tean complicaciones adicionales. El mismo proceso de medida
del mismo grupo. Cuando el proceso ha sido repetido varias repetido puede intensificar las diferencias de factores pasaje-
veces tenemos una serie de cifras, cada una de ellas renresen- ros; p. ej., la ansiedad, el interés y la motivación pueden set
tando el porcentaje de tiempo que el líder del grupo dedica a menores durante la segunda administración del «test» simple-
la charla en plan de conferencia en una determinada ocasión, mente a causa de que el individuo ya está familiarizado con
según el observador. Podemos tomar el rango de los porcenta- el mismo. En el grado en que ocurren tales cambios, el «test» '
jes como nuestro índice de la estabilidad de este porcentaje,
•
dad durante el tiempo de espera de uno a otro «test) lo sufi- el personal encargado de administrar y puntuar el «tests es
cientemente extensa :como para borrar los efectos del primer el mismo en las aplicaciones repetidas, el coeficiente de esta-
«test. pero tampoco demasiado para permitir que se produzca bilidad no tiene en cuenta posibles variaciones en la utiliza-
un verdadero cambio. Si la segunda medición se efectúa antes ción del instrum9Aito por distintos administradores o analistas.
de que los efectos de la, primera hayan desaparecido, la esti- Equivalencia.-WLa equivalencia se ocu de con
mación de la estabilidad no será segura porque los resultados gra-5-15— s -distinto-s-~tores uflhizancUo el instrum _to,
de las dos medidas no serán independientes; el error parece plEll-firealr-ii-151--mism J'inTviduos al mun o tter-n
hallarse en la dirección de una sobreestimación de la estabi- fultórin~fitos álicád1ø81fl1 1d1viduos al mismo
lidad. Por otro lado, si han tenido lugar cambios específicos, ampttliegan-a resultados codts.tentes il. ilustraremos la primé-
el coeficiente resultante será una subestimación de la estabili- ra condición (distintos investigadores utilizando el mismo ins-
dad del propio instrumento. No pueden ofrecerse reglas simpli- trumento) con nuestro anterior ejemplo del comportamiento'
ficadas y rápidas para poder juzgar el intervalo óptimo; en de los líderes de grupo; el segundo (distintos instrumentos)
gran parte depende de la naturaleza específica del «tests. Afor- por el ejemplo de un «tests de información, capacidad, o ac-
tunadamente, puede admitirse la desaparición de los efectos titud preparado partiendo de un número dado de Ítems.
muy rápidamente al principio, y en un grado decreciente con- En nuestra explicación anterior de la medida de las afi-
forme avanza el tiempo En otras palabras, disminuyen las ciones a conferencias entre s_l líderessupon
de grupo _ osa , que
fl
posibilidades de recuerdo - cuando transcurren largos períodos un solo observador era el responsable de todas las edicio-
de tiempo. Un espacio de dos semanas a un mes es admitido nes tomadas. I'gro, ¿qué ocurre si ,e,ste . observador j
generalmente como intervalo razonable para muchos «tests» un error sistemItico, o inseguro de oir° - m-ode7La„noc-r 1
psicológicos. Si existe duda, sin embargo, es mejor aguardar dI": pr-o-Ce-alniiiito seguro de medida requiere ue proporcione
un período más largo, mejor que pecar de corto, ya que con m
resultados coparables -d a mis or el itestil a
el aumento de tiempo tales errores parecen ir hacia una subes: 'otro,
_ -siempre que amboayarLsistruidos lo suficiente;
timación de la estabilidad del instrumento más que a la so- en otras palabras. las fuentes de vatiactiWen el item
breestimación. Se está más seguro con una sub cue 9n nal de la- ogin-a- 177, deberUffie-F-muumwmins4Podemos hacer
sobreestimaciónrrnél primer caso, el inv.e.stiyador,.s~e una estimación del grado de variación situando a distintos
Su instrumento ,e,sra~s, lariZestable- Com.. observadores entrenados para observar a los líderes de grupo
ficiente; en último caspa)» sabe en .qué situación se. _talla, al mismo tiempo, y obteniendo los informes independientemen-
En resumen : &Leo ' e-iiciente de .estabilidariddica el vado te• del tiempo en que se cree que cada líder ha estado confe-
en que la medida- rdkjiiiís-diférencias e raCterfátias ré-, renciando.
lativamente persisteltes_entre indiyiduos . .y . gue afectan a la A partir de tales informes, pueden ser calculados índices
medida." En el grado en que el coeficiente se hallapor de- de equivalencia de diversas formas. Si tenemos a nuestra dis-
bajo del' valor máximo posible, se supone, bien que existen posición un número de observadores controlando a un solo
fluctuaciones específicas en la característica objeto de medida, líder de grupo, y cada uno de ellos informa independientemen-
bien que la medida se halla sujeta. A e rrores de azar debidos te del porcentaje del tiempo que el líder ha dedicado a confe-
a factores personales_pasajeros o a otras cond i rencias, podemos utilizar la desviación de rango o la standard,
cambiado del tiempo de unVadriiinistración al de Ja próxima, de tales porcentajes, como índices del grado de equivalencia
pi coeficiente de-estabilidad toma .en conside,ración....el 11 Es conveniente utilizar la frase "al mismo tiempo"; no obs-
muestreo de preguntas _como upa fuente de „inseguridad. Si tante, las dos medidas no han de ser administradas forzosamente si-
multáneamente. De hecho, en el caso de distintos instrumentos, es a
9 Véanse las curvas del olvido en cualquier manual corriente de menudo imposible administrarlos literalmente al mismo tiempo. Lo
Psicología. que quiere significarse es que, en la estimación de la equivalencia, el
111 Nótese que estas "diferencias relativamente persistentes" pue- tiempo de intervalo entre las medidas no es lo suficientemente corto
den serio en características distintas a las que el test trata de medir; como para que no se pueda esperar razonablemente que la caracterís-
es decir, que pueden envolver errores constantes. tica ha cambiado.
200 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 201.
de los distintos observadores. Otra posibilidad es dividir el tra de Ítems a otra, y en el índice de equivalencia que se cal-
período de observación en unidades de tiempo de la misma Tffla-conl~le-un •gt17.1teIrecorret!tchlr:~1._
duración; 15 segundos podríaser una unidad de tiempo con - concepto_e,stadfsSco estrechamente...rej~,
veniente para un período de observación de 15 minutos de - Los principios supuestos en la estimación del efecto del ítem .
duración. Cada observador informaría de cada una de estas de la muestra sobre la equivalencia son mejor apreciados en
unidades sobre si la actividad del líder del grupo ,durante es- el caso de,eruebas alternadas administradas di mismo tiernn
ta unidad de tiempo fue o no la conferencia. El índice de equi- En este procidimiento,- pruebas que se suttautu....eouivalentes
valencia para dos observadores sería el porcentaje de:- unida- 12-7"-o.msm«test»
- -. . son administradas a los mismos individuos
des de tiempo en que estuviesen de acuerdo sobre si el líder effla misina sesión. AraiIiii-e-Tal-ddr15P51~mitienen-disa
de grupo estaba o no conferenciando. tIlité~s-, -¿lbs . tr. -atan •dé-iifeWirfirabl' a
Si nuestro
nuestro interés principal se refiere al grado en que los ilt7 ' La • córrelación entre puntuactactesr~buradWas
distintos observadores están de acuerdo sobre el orden de cla- del Itest»..indica- el grado en-que-éatea-midealLmisma ea- ....
sificación de líderes de grupo (mis uno de ellos observado ra.. cteristica
. . de,mna.forma
- •consistente.--,
durante una sola sesión) con respecto a la proporción de tiem- Es evidente que este procedimiento no toma en conside-
po dedicado a la conferencia, utilizaríamos entonces un coefi- ración las fluctuaciones cotidianas de la persona o de la mis-
ciente de correlación como índice de la equivalencia de cual- ma situación en el momento de la aplicación de la medida,
quier par de observadores. . puesto que ambas formas del «test» son administradas en una
La IltifflagiOn-s1-111-01.4ing11.914.cle-liLP~~ sola sesión. Algunas diferencias pasajeras, sin embargo, apa-
divIduos con relación
_ _ a distintos instrumentos que tratan de recen de forma inequívoca. Puede haber variaciones en la
inedir Já misiiiii 'cara-cliRiTcrie"Cérifia-eii lrvarIllti6li .(.9i101 atención durante el período de la aplicación del «test»; un
luaciones-débkliCa .. p. 9.1,91.-:
( -; en21
__ -.MUestreitairlos4ma
- a• aumento del aburrimiento o de la fatiga pueden infl "r las res-
ExistenInTu-Wet . - .,.. 1 . podríamosJ.ele..99,10aLjaa- puestas en el segundo «test»; las respuestas a preg1ntas del
ra medir_ cjjaignier.mautedstica..deteraninada 1 en- qg primer «test» pueden afectar a las del segundo «tes ». No
do 'es . 1S, rudkla_41,1a ,característica quq qiiçipj ' j obstante, a menos que los procedimientos de medida sean
partir de upa serie dorrtrIms 'équivalente a la medida .fflAu.gb- extremadamente largos, estos cambios parecen ser menores
tendríamos á-par:lir droTryloSible "se4g2, Trataigicr~s que los debidos al azar que tendrían lugar en un período de
istimacioneárlifflizaremos comólratración. un «test» prepa- tiempo mayor; así, los coeficientes computados sobre esta
rado a partir de distintos items al que los sujetos responden base no tienen en cuenta de forma total el efecto de los erro
satisfactoriamente. res variables de este tipo. Por otro lado, puesto que existen
La construcción y selección de ítems de «test» es un. pro- muy pocas posibilidades da- cambios específicos en la carac-
cedimiento bastante arbitrario, y hay un amplio margen de terística durante una sesión de aplicación del «test», este mé-
ftems posibles para la medida de una característica determina- todo de control de la confiabilidad evita el problema de confun-
da; en consecuencia existe generalmente poco interés en sa- dir el cambio verdadero con el error casual.
ber el grado en que las respuestas de un solo individuo varían 1.. ggtodo„de.../coyte . . r la • d» itlesser_s1~,
m
de un ítem a otro, en un determinado «test». Es cierto que la como un_casg especial dé rii tg u... as alternada
sssimi-
mayoría de los «tests» están elaborados para asegurar un am- nistradas . . al mismo tiempg. ,Z u...9.110,„priazdjuuejitla„„sajdubi....-.
pilo rango de respuestas para cada individuo; p. ej., en un fiiáfni una sola forma de «test » por vez rimera a
«test» de actitud se espera que cada individuo halle algunos de individuos; las preguntas-det5ivididasiuegoen.
Ítems en que se muestre de acuerdo y otros en que esté dis- dos Mitades, y.las ppuntuaciones de ambas mitades son- ....n.p
Co i " a
.-
conforme, y en un «test» de perfección o capacidad se supone rádárs a fin de obtener una estimac- ió-n7delllidoTen q_umon
que cada individuo hallará algunos ítems que pueda superar equivalentes. En otras palabras, las dos mitades son conside-
u otros en que fracase. El interés se centrará en el grado en das como formas alternadas del mismo «test». El coeficien-
que la ordenación de los riailildüog
_.
' Sea el 'mismo de una dines-
202 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES DE MEDIDA 203
«test»; una vez más, un alto coeficiente de equivalencia es in- timación de la equivalencia «de corte por la mitad», éste úl-
terpretado como índice de que la situación del individuo no timamente expuesto, como el de protocolos alternados admi-
se halla afectada por esa determinada serie de preguntas en nistrados al mismo tiempo, no tienen- en cuenta las fluctua-
cualquiera de las dos mitades, sino que, por el contrario, sería ciones diarias de la persona ni tampoco las de las condiciones
sustancialmente la misma en cualquier «test» elaborado con de administración.
preguntas del mismo universo. L .
En resumen : el coeficiente sie_pqgivaleucia incljaxj„„gm.- -
do en.que concuerdan las rne-clide los mismos. individuok
miento de.prntocolos altem3dos,_un coeficiente
puede refleja,Lerrams-casimles--ea-las-wespuestar~sadátais
_ww.,equivalencias-de_1412.40411-iata
cletertnina_das asLcon
(19
d _
41iQ tiempL Las mediciones pueden ser realizadas por
istintos observadores utilizando el mismo instrumento, o por
g,,utytas. distintos instrumentos que tratan de medir la misma caracte-
Tradicionalmente se ha estimado que en el método de rística. En la medida en que el coeficiente sea menor que el
«corte por la mitad» el «test» o medida debería ser secciona- máximo valor posible se supone, en el caso de distintos ob-
do en mitades equivalentes, cada una de ellas representando servadores utilizando el mismo instrumento, que existen va-
la totalidad del «test» en todos los aspectos significativos 12 .
riaciones en la utilización del instrumento por distintos obser-
El método ordinario de obtención de presuntas mitades equi- vadores. En el caso de distintos instrumentos elaborados con
valentes es mediante la asignación de las preguntas con núme- un número determinado de Ítems, se supone que los !te=
ros pares a una mitad, y las de los impares a la otra. La co- no son medidas equivalentes de la misma caracte -rística o que
rrelación entre las puntuaciones de las dos partes es entonces existen errores de azar en las respuestas a las preguntas o
interpretada como una estimación del coeficiente de equivalen- ambas circunstancias a la vez. En cualquier caso, el coeficiente
cia de un «test» de una dimensión con la mitad del «test» de equivalencia no tiene en cuenta la inestabilidad con el pa-
original. A partir de aquí puede ser computada una estima- so del tiempo como fuente de inseguridad.
ción del coeficiente de equivalencia para todo el «tests—co- Estabilidad y equivalencia. Como ya hemos indicado, los'
—
nocida como «fiabilidad de corrección del corte medio»—por índreli-al la istabifidad-dépuntuacion consideran primor-
medio de la fórmula de Spearman-Brown. (Este procedimien- dialmente las fluctuaciones de los facto es personales y am-
to se trata más adelante con mayor detalle en la página 211.) bientales COMO fuentes de inseguridad, n tanto los índices
Estudios más recientes han llegado a la conclusión de que, de equivalencia consideran en primer lugar las variaciones
si todos los ítems del «test» tratan de medir la misma carac- en la administración, contenido y circunstancias de los pro-
terística, deberían ser comparadas mitades obtenidas por azar ceslimientos. medida.r edimientos dei
más que equivalentes, y de aquí se ha obtenido un nuevo mé-
todo de cómputo de un coeficiente de equivalencia 13 . El ín-
dice resultante de este método, llamado el coeficiente alfa tie- distintas de inseguridad. Un grupo de individuos re-
ne, entre otras ventajas, la de ser la correlación media de cibí un protocoloi de un «test» en una vez (o controlado por
«corte medio» para todos los posibles casos de división del un observador en una situación determinada); después de un
«test» en dos partes. Esto llena los requerimientos de mues- lapso de tiempo, estos mismos individuos reciben un proto-
treo aleatorio con respecto a los ítems que componen las dos colo distinto del mismo «test» (o son medidos por un obser-
mitades del «test». El coeficiente alfa da un coeficiente exac- vador distinto en otra situación). La correlación de puntua-
to de equivalencia para la totalidad del «test». La exposición ciones o clasificaciones en las dos ocasiones proporciona un
del método no puede ser hecha aquí, pero los lectores intere- índice general de la fiabilidad del procedimiento de medida,
sados pueden consultar las referencias citadas. En el caso de los cuestionarios, entrevistas, etc., este pro-
Cualquiera que sea el procedimiento utilizado para la es- cedimiento tiene la ventaja sobre el método de «test-retest», de
estar menos afectado por la memoria y la práctica. No obstan-
te, el hecho de que los ítems en los dos protocolos sean dis-
12 Véase Thorndike (1949) y Guilford (1954).
Véase Cronbach (1951) y Tryon (1957b). tintos no significa que los resultados de la segunda aplicación
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 205
204 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
puatuaciones. Algunas veces el instrumento de medida no lle-
del «test» sean totalmente independientes de la primera. Ha- ~1f1mo al análisis interno que pudiera precisarse pa-
biendo realizado la primera, la actitud y disposición para la ra una medida de la equivalencia. ual uiera que sea e1 mé-
segunda pueden ser distintas; pueden haberse recibido: los tpdo_utilizado-por :el inv •
impactos de la práctica por la estimulación de los ítems que nocimiento de sus implicaciones •
parecen nuevos; e incluso los efectos del recuerdo u olvido
pueden actuar como una consecuencia de la semejanza de los
Ítems. Como una precaución contra la distorsión.de los resul- ¿En qué consiste una fiabilidad satisfactoria?
tados por los efectos específicos del hecho de haber tomado No existe una simple respuesta a la pregunta acerca de qué
un determinado protocolo del «test» en primer lugar, la ad- se considera una fiabilidad satisfactoria. Depende del objetivo
ministración de los dos protocolos queda compensada ordi- y del método por el que ha sido estimada la fiabilidad. En ge-
nariamente; es decir, a la mitad del grupo se administra el neral, cualquier falta de fiabilidad en un «test» disminuye su,
protocoloo-A pritnér3~tacqlo B eala.,,s,mundit adminis- validez; análogamente, disminuye la posibilidad del investi-
tración, en tanto_ la..0~itad .toma el protpcólp_p_pdam gador de demostrar relaciones entre variables o de hacer dis-
'No obstante; ello no evita los efectos más qenerales, consecuen- tinciones precisas entre individuos que son semejantes en la
cia de haber tomadoi.finlotocolo, cualquiera que sea éste. El característica que se trata de medir. .
Probleina- dcestabrear i- nte-rVEY-d1 tiempo adecuado entre Fiabilidad y validez.—En el grado en que las puntuacio-
las dos pruebas no es esencialmente distinto, por tanto, del nes -a-fardas - por la aplicación de un instrumento de medida
encontrado de estimación de la estabilidad por el método de están influidas por errores de azar, ya no son índices exac-
«test-retest». tos de la posición de un individuo en términos de la caracte-
Como en los métodos de observación repetida_cuitestat,tros„, rística que se intenta medir. En otras palabras, en el grado
existe la posibilidad-5-4-ue- los cambjçpçfficos' de la ca- en que una medida carece de fiabilidad, se halla falta ,
de\va-
tacterístier á- liado ugar eirErr- n er-'" lidez. Debe anotarse una excepción, no obstante. Ctia4. do ,la
imlo'clelti.rdliráciarnirsnes41111Citestp..,Pero, una vez mls, estimación de fiabilidad consiste en un coeficiente de "va-
siempre -que los resultados de las dos aplicaciones, del «test» lenCia de «corte por la mitad», un bajo índice de fiabilida,,
sean razonablemente independientes, el efecto de esta posi- no rebaja necesariamente la validez; paradójicamente, puede
bilidad es hacer del cQeficiente obtenido una estimación de la llegar incluso a incrementar la validez. Para que una equiva-
confiabifidad mínima del instrumentódi medida.
---- PlIsttreffirlrmétodo de administriaón de prccedimien. ,
tos altéiaidoi - de medida en tiempos -distintos tiene en cuerita
lencia de «corte por la mitad» sea alta, todos los ítems del
. «test» deben estar altamente correlacionados; es decir; deben
todos proveer una medida de la misma característica como
Más fuentes de variación-1.44e los otros métodos deicritcts,da- condición esencial o bien de características que varían al mis-
ra ordinariamente . utía7Má. s_baja estimación—si-bien-más-exac- mo tiempo. Para utilizar el término técnico, deben ser homo-
ta—de confiabilidad que.cualquier otro coeficiente . de- estabi- géneos. Sin embargo, para algunos propósitos, un «test» que
lidad o de .equivalencia. afecta a un número determinado de características puede ser
¿Qué, método_de_e_timaa
s la. fiabilidad jirilj7ark más válido que uno que mide solamente una característica.
,investigador-en-unaj~igaci6n-determinada? Ello depen- Supongamos, p. ej., que estamos trabajando con la selec-
derá, no solamente del valor de las distintas
, té para lo- ción de candidatas para ser admitidas a un curso de enferme-
grar sus propósitos, sino también . .0 1:• es ras. Supongamos también que ya hemos eliminado por otros
cas _que le le ofrezcan y de los recursos que pul. é • e.icar métodos a las que no se hallan claramente dotadas para la pro-
al desarrollo de sus procedimientos de medida. Algunas veces fesión, bajo criterios tales como inteligencia baja, escasa re-
no es posible para el investigador tener a su disposición ...al sistencia física, fuertes trastornos de personalidad, etc. Quere-
Inisme -gfupu...da-snietos dos veces, o el costo de ellawk:ea 4 mos un «test» que nos ayude a seleccionar, de entre todas las
ser prohibitivo; en tal caso no tiene posibilidad de elección, que han satisfecho las condiciones básicas, a las que parecerán
sino basar su estimación de la fiabilidad.en
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 207
206 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
ser más eficaces como enfermeras. Parece obvio que un de- no parecen muy seguros, ello es compensado por la compli-
terminado número de características serán significativas; es- cación en las muchas facetas del complejo. Un error de su-
tas pueden incluir, p. ej., capacidad de autodominio, para acep- bestimación de una faceta tendería a ser compensado por un
tar y seguir instrucciones, y quizá características tales como la error o sobreestimación de otro. En principio, si cada ítem
capacidad de introspección y de tratar de entender a los de- se proliferase en «multi-ítems» más seguros y las puntuaciones
más, simpatía, optimismo. Podríamos, p. ej., elaborar un «test» de cada «test» componente señalasen ponderaciones mejores
para cada característica que creemos, o sabemos, son relevan- más , bien que iguales, la validez pragmática de la batería en
tes. Pero para el uso práctico de selección de aspirantes, una su conjunto aumentaría.
batería semejante de «test» no sería posible; podríamos es- Descubrimiénto de relaciones entre variables.— Los errores
timar preferible combinar en un solo «test» de «Probable éxi- aleatorios en la medición de una variable—es decir, la inse-
to en la profesión de enfermera», ítems que midiesen un de- guridad del instrumento de medida—reduce claramente la po-
terminado número de las características relevantes. En tal sibilidad de descubrir en qué grado se halla relacionada una
«test», las correlaciones entre distintos ítems serían probable- variable con otra ' 4 . Supongamos que hemos elaborado un
mente bajas; y por tanto, la estimación de la equivalencia con- cuestionario para medir la moral del obrero con la esperanza
trolada por la técnica del «corte por la mitad» sería baja. No de que ello nos servirá para hacer predicciones acerca del ín-
obstante, el «test» puede ser muy eficaz para la identificación dice de absentismo bajo determinadas condiciones. Si el cues-
de candidatas que desempeñarían bien el oficio de enferme- tionario fuese totalmente inseguro—p. ej., si los obreros cla-
ras. ¿Cómo puede llegarse a esto? sificados por el cuestionario como poseedores de una baja
Desde el punto de vista de la predicción de un determina- moral fueran precisamente los que muestran un alto espíritu
do resultado de conducta, el «test» ideal compuesto de una en una segunda administración diez minutos más tarde—sería
serie de ítems debería tener las siguientes propiedades : cada imposible observar una relación entre moral y absentismo,
ítem debería tener una alta correlación con el criterio, y co- incluso si los dos estuvieran, de hecho, estrechamente vincula-
rrelación cero con cada uno de los ítems restantes. Si fuéra- dos. Si el cuestionario no fuese totalmente inseguro, podríamos
mos capaces de construir un «test» semejante y medir su fia- ser capaces de demostrar que existe alguna relación_51>t4e mo-
bilidad por el método de «corte por la mitad» o cualquiera ral y absentismo. No obstante, si queremos saber cuán estre-
de los restantes mencionados, pudiera ser que, al final, re- cha es la relación entre las dos variables, es necesario poseer
sultase tener una fiabilidad muy baja. Así, parecería que las instrumentos altamente seguros.
especificaciones para la validez pragmática en grado máximo Diginción,entre indivi4u~2^—Todos los métodos
requieren confiabilidad baja, contradicción aparente con la pro- de estimación de la fiabilidad que hemos descrito, y la ma-
posición establecida anteriormente de que la confiabilidad es yoría de los restantes de utilización ordinaria, consisten bá-
una condición necesaria para la validez. Debería ser destacado l'sicamente en la determinación de si las medidas en distintos
que, en primer lugar, nuestro «test» ideal todavía habría de momentos y por distintos protocolos del instrumento sitúan
poseer una fiabilidad razonablemente alta para considerarlo a los individuos en la misma situación en relación con la to-
útil—es decir, tener validez pragmática. En segundo lugar—y talidad del grupo que ha sufrido las pruebas. Dejando aparte
constituye una importante lección aquí acerca de lo que miden el «tema» del «test», o el método de estimación de la confiabili-
los buenos «tests» pragmáticamente válidos—la fiabilidad de dad, la pregunta que se formula es esencialmente : ¿Coinci-
«corte por la mitad» no es lo que parece. Nuestro «test» ideal den los resultados de los dos «tests» de situación en el lugar
no es, en realidad, un «test» en modo alguno, sino una bate- en que sitúan a X (y a cada una de las restantes personas del
ría de «tests» de un sólo ítem cada uno. El «test» pragmática- grupo) en relación con la puntuación media del grupo? El in-
mente válido no medirá, por tanto, una característica, sino
un complejo de muchas características. La determinación del 14 Una vez n'As hemos de destacar que esto no se refiere a las
coeficiente de fiabilidad de «corte por la mitad» para un «test» medidas en que la equivalencia del "corte por la mitad" no reduce
así elaborado no tiene sentido. Si los «tests» de un . sólo ítem la validez pragmática.
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 209
208 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
dividuo X y cada uno de los restantes pueden alcanzar diez tendrían que ser, aproximadamente, tres veces mayores que
puntos más en otro «test» distinto al planteado, pero ello no si fueran 0,60 más que 0,90; y aproximadamente 1,4 veces
es prueba de inseguridad si cada uno de los sujetos está en tan grandes que si fueran 0,80 en vez de 0,90. la fiabilidad es,
la misma situación relativa a las otras en ambas mediciones. por tanto, importante para una distinción precisa, y sin ella
Ni tampoco los distintos cambios en puntuación para distin- las graduaciones detalladas en el instrumento de medida son
tos individuos afectarán a la estimación de fiabilidad a menos ilusorias.
que cambien la posición de los individuos en relación con los 3. La estimIción de la fiabilidad supone la fiabilidad media
demás. Supongamos que en la primera medición A puntúa 30, de puntuaciones de los individuos en un grupo.—No propor-
B, 40 y C, 50; y que en la segunda medición A alcanza 33, cionan una estimación de los distintos grados de fiabilidad de
B, 40 y C, 47. Puesto que la posición relativa de los tres no las puntuaciones de cada individuo dentro del grupo. Es, des-
quedaría alterada, estas variaciones no pueden presentarse co- de luego, una aproximación de grado desconocido la asigna-
ción del mismo coeficiente de fiabilidad a las puntuaciones de
mo signo de inseguridad. Pero supongamos que en la prime- todos los individuos. Con frecuencia, la fiabilidad de una pun-
ra medición el individuo A ha obtenido 39; el B, 40 y el C, 41.
Si el individuo A vuelve a aumentar tres puntos en su segunda tuación en un lugar de una serie continua es distinta de aque-
medida y C pierde de nuevo tres puntos, su posición relati- lla otra situada en otro lugar; p. ej., los individuos que tienen
va se alteraría; entonces los cambios en puntuación entre las actitudes más intensas pueden ser más consistentes que aque-
dos situaciones en el «test» se presentarían como índice de llos menos intensos (véase Cronbach, 1949). La seguridad de
una puntuación media es mayor que la de las puntuaciones indi-
inseguridad. viduales que van supuestas en el cómputo de tal medida. Si
Tomando como punto de partida estas operaciones utili-
zadas en la estimación de seguridad, se obtienen varias con- estamos interesados en resultados de grupos, podemos con-
secuentemente operar con instrumentos de medida de una fia-
secuencias : bilidad relativamente baja, compensando este defecto con el
1. El grado de seguridad de un procedimiento de -medida aumento de tamaño de la muestra. No obstante, si estamos
es siempre contingente al grado de uniformidad de la carac-
terística dada dentro de la población sujeta a la medida. Las interesados en hacer afirmaciones o predicciones acerca de
alteraciones pequeñas en las puntuaciones individuales pue- determinados individuos sobre la base de sus puntuaciones,
den llevar a cambios en la posición relativa dentro de un .grupo los grados de fiabilidad por de1\ jo de 0,90 son arriesgados.
en el que las puntuaciones de muchos individuos se apro-
ximan unas a otras, teniendo en cuenta que las mismas alte- Formas de aumentar /a fiabilidad
raciones no llevan precisamente a cambios en la posición re-
lativa dentro de un grupo donde los individuos difieren mar- La fiabilidad de los procedimientos de medida puede con
cadarnente uno de otro. Así, un «test» de baja seguridad en frecuencia ser aumentada tomando las precauciones debidas
una población muy homogénea puede mostrar una alta segu- con relación a las fuentes de error. Así, las condiciones bajo
ridad en una población muy heterogénea. Los «tests» se publi- las cuales se aplica el procedimiento puede ser standardizado
en alto grado en ocasiones, atendiendo a la iluminación, gra-
can algunas veces con altas estimaciones dudosas de seguri- do de ruidos, temperatura, presencia de observadores, etc., si
dad, computadas sobre la base de la administración a pobla-
ciones muy heterogéneas, siendo así que la aplicación del tales factores son considerados significativos. Las alteraciones
«test» puede requerir la capacidad para distinguir entre indi- no deseables en la administración del procedimiento pueden
viduos de grupos relativamente homogéneos. ser minimizadas utilizando solamente personal lo suficiente-
mente preparado, instruido y motivado. Puede exigirse que
2. La seguridad en alto grado es más importante si de- los sujetos que van a ser entrevistados lo sean solamente cuan-
seamos hacer distinciones sutiles entre individuos que si sim-
plemente deseamos la identificación de los individuos situados do se hallan en buen estado de salud, suficientemente descan-
sados, y después de haber sido tomadas las precauciones para
en los extremos.—Para demostrar una diferencia significati- asegurar que habrá «rapport». Cuanto mayor sea el control
va entre dos puntuaciones, las diferencias entre las mismas
14
210 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES
ALGUNOS PROBLEMAS GENERALES DE MEDIDA 211,
deseado sobre estas fuentes de inseguridad, mayores son los demos llegar a la fiabilidad de un procedimiento cualquiera
recursos necesarios para disponer. de medida hasta una aproximación al 1,00, tal como desea-
Existen dos métodos muy potentes para aumentar la fiabi- mos, siempre que podamos añadir operaciones de medida in-
lidad de un procedimiento de medida, que suponen la selec- definidamente sin alterar su naturaleza en ningún aspecto im-
ción y acumulación de operaciones de medida más bien que portante. Si la correlación entre la proporción de tiempo
cambios en las condiciones bajo las cuales se efectúan las ope- invertida en conferencias por un líder de grupo durante un perío-
raciones. Estos métodos pueden ser ilustrados más claramen- do de quince minutos y otro período siguiente de igual du-
te cuando la «operación de medida» consiste en la adminis- ración es de 0,10. será de escasa utilidad una medida de la
tración a un sujeto de un determinado ítem de un «test» que, proclividad hácia las conferencias basadas solamente en la
supera o fracasa; no obstante, los mismos principios son vá- observación durante tal período de tiempo. Pero si podemos
lidos cuando la operación de medida consiste en la adminis- fundamentar la medida en la media de los resultados de cin-
tración de otra clase de ítem de «test», o la evaluación de al- co períodos de quince minutos cada uno, la fiabilidad puede
gún aspecto del comportamiento del sujeto por un determinado esperarse que aumente hasta 0,36. Y si se puede obtener la
observador. medida de resultados de diez períodos de quince minutos (de
El primer método para aumentar la seguridad es añadir. la misma forma que se ha descrito), la fiabilidad de nuestra
operaciones de medida del mismo tipo de las utilizadas al prin- medida aumentará probablemente hasta cerca de. 0,53, en tan-
cipio, y asignar al sujeto una puntuación basada en la suma de to que si podemos tener a nuestra disposición la media de 100
los resultados de todas las operaciones de medida. En la si- períodos de observación, se puede esperar alcanzar una fiabili-
tuación de aplicación del «test», ello significa el aumento de dad de más de 0,90. El mismo principio tiene aplicación cuan-
la longitud del «test». En la situación de observación, se tra- do añadimos ítems individuales a un «test» psicológico.
duce en un aumento del número de observadores, o el núme- La fórmula Spearman-Brown supone que la correlación
ro de ocasiones en que cada sujeto es observado, o ambos ca- entre cualquier operación de medida, o ítem, y cualquier otro
sos. Si la correlación entre los ,,resultados de cualquier opera- ítem es aproximadamente la misma para todos los pares de
ción de medida y otra análoga es aproximadamente la misma Ítems estudiados; en la medida que añadimos fte.ms u opera-
dentro de las series de operaciones que estamos utilizando, ciones de medida que no se correlacionan co,n los restantes,
existe una fórmula muy sencilla, conocida como la de Spear- nuestros resultados actuales se habrán alejado de los previs-
man-Brown, que nos permite predecir con aproximación el tos por la fórmula.
efecto del aumento del número de operaciones de medida 15 .
Un método alternativo de aumento de la fiabilidad co-
mienza por suponer que existen diferencias apreciables en la
Nr 'correlación de los ítems entre sí. El problema consiste enton-
1 + (N — 1)r ces en seleccionar de entre todos los ítems posiblemente dis-
ponibles u operaciones de medida aquellos que guardan una
Un examen detenido de esta fórmula nos muestra que po- correlación mayor entre sí, y aumentar lit fiabilidad del pro-
cedimiento de medida en conjunto mediante el aumento de
15 En esta fórmula r es la correlación entre cualquier operación su consistencia interna.
de medida con otra análoga, N es el número de operaciones de medi- Este método ha sido raramente utilizado fuera del campo
da, y r", es la correlación entre la suma o media de operaciones N de los «tests» psicológicos (incluida la medida de actitudes),
de medida de esta determinada clase y la suma o media de otras
operaciones N de la misma clase. Fundamentalmente, r es la medida pero en este aspecto lo ha sido con bastante éxito. La prácti-
de la fiabilidad o seguridad de un test consistente en una sola ope- ca más común es comenzar con una serie bastante extensa de
ración de medida, en tanto nui es la presunta fiabilidad de un test Ítems, calcular una puntuación basada en cada ítem, y otra
consistente en N número de operaciones de medida de la misma clase.
La fórmula de Spearman-Brown es tratada en la mayoría de los puntuación fundada en respuestas a la serie total de ítems.
manuales de medida mental. Véase, p. ej., Gulliksen (1950) o Guilford A continuación para cada ítem es correlacionada con la pun-
(1954). tuación total, y se seleccionan los (tenis que muestren una co-
212 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES ALGUNOS PROBLEMAS GENERALES . DE MEDIDA . 213
rrelación más alta con dicha puntuación. Estos Ítems se di- una vecindad distinguida es que aquéllos gradualmente van
viden en dos grupos equivalentes; se calculan dos nuevas dándole un ambiente típicamente judío.
puntuaciones basadas en los. dos grupos de ítems selecciona- E. La mayoría de los hoteles deberían negar la admi-
dos; y estas puntuaciones son correlacionadas para propor- sión a los judíos, como norma general.
cionar una medida de la fiabilidad del «test purificado». Si la
nueva fiabilidad no es satisfactoria, el «test» puede ser puri- A los cuestionarios se,J.es..pjgá no solamente
a_T__.. que manifes-x._.
ficado posteriormente de la forma descrita, o pueden ser aña- taran su acuerdo desacnergo, con ca ítem. mita aue
didos ítems adicionales del tipo representado por los ítems casen él~e_s_tkopinión. desde «acuerd,q_ total» hasta ato-
seleccionados. W-Sposición», - ttlesacuerdo». La respuesta a cada ftem fue
Mejor que correlacionar la puntuación para cada ítem con puntuada en tina escalaqiiibad_esde 1 al an-
la asignada para el «test» total, la finalidad de incrementar la tisemitismo) hasta 7 (total antise mifimó), con un •
consistencia interna puede ser alcanzada del siguiente modo : eat2rPara--eedtp-itenirfner~Plltaaas las puntuacio-
se dividen los sujetos en dos grupos—uno de puntuaciones al- nes medias del 25% de los que puntuaron más bajo en la
tas y otro de puntuaciones bajas—sobre la base de sus pun- totalidad del «test»; la diferencia entre las dos medidas fue
tuaciones totales. Si el número de sujetos es bastante nume- tomada como «poder discriminatorio» del ítem. Las cifras pa-
roso, como debería ser, se toman grupos extremos—digamos, ra los cinco ftems son las que se dan en la siguiente tabla:
el veinte por ciento superior y el veinte por ciento inferior. Si
un ítem es consistente con la serie completa de ítems, en- PI1NTVACION MEDIA
tonces la proporción de sujetos con puntuación alta que res- Item
‘ rPilina
scu der
vo
Media para
todo el grupo
ponden al ítem en un determinado sentido debería ser sig- 25% 26% ....---
Interior
nificativamente distinta de la correspondiente proporción de.
superior
sujetos de puntuación baja. Estos ítems son muy consistentes 4,48 3,45
con la serie total que contiene• las mayores diferencias en la A 5,86 1,38
B 2,89 1,00 1.89 1,67
dirección adecuada. C 5,30 1,19 4,11 2,84
Como ejemplo, vamos a considerar el procedimiento uti- D 5,28 1,32 3,96 3,23
lizado en la elaboración de una escala de antisemitismo para E 2,22 1,05 1,17 1,46
uso de la investigación titulada «Personalidad autoritaria»
(Adorno y col., 1950). Fue administrado un cuestionario con-
sistente en 52 (tems referido a judíos, a un grupo femenino Es evidente que los ítems A, C y D, distinguieron de forma
de estudiantes. Veamos los resultados de las respuestas a cin- precisa entre los sujetos de altas y bajas puntuaciones. En
co de los ítems del «test»: estos tres items, aquellos que puntuaron alto en antisemitis-
mo en el «test» total, tomaron una posición media de acuerdo
A. Una dificultad con los comerciantes judíos es que moderado, en tanto los que puntuaron bajo en la totalidad
forman un círculo cerrado y en él conviven, de tal forma del «test» tomaron una posición media entre desacuerdo mo-
que un gentil no tiene oportunidades para la competencia derado y total. Los ítems B y E, por otro lado, mostraron mu-
con ellos. cha menos diferencia entre sujetos de alta y baja puntuación;
B. Los colegios deberían adoptar un sistema de cupos la totalidad del grupo mostró tendencia al desacuerdo con es-
por el que limitasen el número de judíos en aquellos estu- tos ítems. Los ítems A, C, y D fueron mantenidos; los (tenis
dios en que ya existen demasiados judíos. B y E fueron eliminados.
C. Los hombres de empresa que ocupan a mucha gen- Es importante reconocer que el proceso de eliminación de
te deberían llevar cuidado en no contratar a un excesivo iteras de un «test» o escala de actitud mediante el criterio de
porcentaje de judíos. consistencia interna siempre resulta en un cambio de la '«de-
D. El problema de permitir a los judíos asentarse en finición de trabajo» de lo que se está midiendo (véase capítu-
214 MÉTODOS DE INVESTIGACIÓN EN LAS RELACIONES SOCIALES