Sie sind auf Seite 1von 13

TEMA 5. MTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT.

1. INTRODUCCIN.
2. SUPUESTOS.
3. CONSTRUCCIN DE UNA ESCALA LIKERT.
4. INTERPRETACIN DE LAS PUNTUACIONES.
5. VALORACIN.

1. INTRODUCCIN.
El mtodo de escalamiento de Likert es el mtodo ms utilizado en Psicologa para
medir actitudes, y su uso se ha extendido a la medicin de otros constructos, com
o por ejemplo las dimensiones de personalidad.
Likert (1932) propuso su mtodo de escalamiento a finales del primer tercio
del siglo XX. Previamente, Thurstone (1928) haba propuesto un mtodo para la medic
in de actitudes que implicaba la participacin de sujetos que desempeaban el papel d
e jueces (el mtodo de los intervalos aparentemente iguales). Segn Thurstone (1928)
, el nmero de jueces debea oscilar entre 200 y 300. La tarea de estos sujetos cons
ista en valorar un conjunto de tems. A partir de estas valoraciones, se calibraba
n los tems, es decir, se estimaba el valor del tem en la escala. Una vez se dispona
de un conjunto de tems calibrados que constituan un cuestionario, ste se aplicaba
al grupo de sujetos que se deseaba estudiar, y se les peda que marcaran los tems c
on los que estaban de acuerdo y aqullos con los que disentan. La puntuacin de cada
persona consista en la media de los valores de los tems con los que estaban de acu
erdo. El empleo de un nmero elevado de jueces y la necesidad de calibrar los tems
hacan que este mtodo fuera muy costoso y laborioso. Asimismo, el mtodo de Thurstone
implicaba una serie de supuesto estadsticos que no haban sido verificados, por ej
emplo, que los valores de escala de los enunciados son independientes de la dist
ribucin de actitudes de los jueces que los valoran (Likert, 1932).
Tras reconocer la importancia de las aportaciones de Thurstone en el terr
eno de la medicin de las actitudes, Likert (1932) se pregunt si la construccin de e
scalas de medida mediante procedimientos ms sencillos dara resultados tan buenos c
omo los obtenidos por Thurstone en cuanto a la fiabilidad y validez de las medid
as, y si sera posible construir escalas evitando asumir supuestos estadsticos inne
cesarios. As pues, el objetivo principal de Likert (1932) fue desarrollar un mtodo
de medicin de actitudes sencillo y simple.
Brevemente, el mtodo de medicin de Likert consiste en la presentacin a los s
ujetos de una serie de tems o enunciados ante los que tienen que expresar su posi
cin escogiendo una alternativa de respuesta entre las ofrecidas. Por ejemplo, ima
ginemos que uno de los tems que componen una escala de actitud hacia la pena de m
uerte dijera: La pena de muerte debe abolirse , y que las alternativas de respuesta
ofrecidas para contestar el tem fueran:
1. Completamente en desacuerdo.
2. En desacuerdo.
3. Indeciso.
4. De acuerdo.
5. Completamente de acuerdo.
Un sujeto que tuviera una actitud contraria a la pena de muerte contestara
4 o 5. Una vez que el sujeto a contestado todos los tems, la puntuacin del sujeto

en el cuestionario se determina sumando o promediando los valores de las altern


ativas de respuesta escogidas ante cada tem (Likert, 1932). Por esta razn las esca
las o cuestionarios construidos siguiendo este mtodo se denominan escalas sumativ
as.
2. SUPUESTOS.
Likert no elabor un modelo matemtico que fundamentara su mtodo de escalamie
nto. No obstante, su mtodo implica una serie de supuesto que conviene conocer. Es
tos supuestos pueden calificarse de dbiles porque no son muy restrictivos ni difci
les de asumir.
El mtodo de Likert es un mtodo de escalamiento centrado en los sujetos (Tor
gerson, 1958). Su objetivo es medir sujetos, mostrar las diferencias individuale
s en relacin con una determinada actitud. Por ello, se asume que la variabilidad
observada en las respuestas de los sujetos se debe a diferencias entre stos, esto
es, a que tienen niveles de actitud diferentes.
El mtodo de Likert no pretende medir o calibrar los tems. stos son consider
ados rplicas unos de otros, es decir, se supone que todos tiene el mismo valor de
escala.
Asimismo, se supone que cada tem presenta una relacin monotnica con la acti
tud subyacente que pretende medir. Esto quiere decir que cuanto ms favorable o po
sitiva sea la actitud de un sujeto, mayor ser la puntuacin que obtendr en el tem, y
cuanto ms desfavorable o negativa sea la actitud de un sujeto, menor ser la puntua
cin que obtendr en el tem. Grficamente, esta relacin puede representarse de la siguie
nte forma:
Figura 1. Relacin monotnica entre el tem y el continuo de la actitud.

Por ltimo, al tratarse de un mtodo de escalamiento unidimensional, se supon


e que los tems miden una nica actitud subyacente. Este es el supuesto de unidimens
ionalidad.
3. CONSTRUCCION DE UNA ESCALA LIKERT.
La construccin de una escala Likert para medir actitudes implica las sigu
ientes tareas:
1. Elaborar una base o banco inicial de items.
2. Determinar cmo se puntuarn los tems y cmo se obtendrn las puntuaciones de los suje
tos.
3. Anlisis y seleccin de tems.
4. Evaluacin de la fiabilidad y validez de la escala.

3.1. Elaboracin de una base o banco inicial de tems.


La elaboracin de un instrumento de medida psicolgica comienza con la defin
icin de aqullo que queremos medir. A continuacin, hay que escribir un conjunto sufi
cientemente amplio de tems o enunciados acerca de la actitud en cuestin. Este conj
unto de tems configura el banco o base inicial de tems. Es importante que el nmero
de tems sea, como se ha dicho, suficientemente amplio, pues hay que evitar que en
el caso de que haya que eliminar algunos tems debido a su baja calidad, nos qued
emos al final del proceso con una escala compuesta por pocos tems que no muestree
n suficientemente la actitud a medir, y que no permita mostrar las diferencias i
ndividuales existentes.
A la hora de elaborar tems es conveniente considerar los siguientes crite
rios (Likert, 1932):
1. Un criterio general es que los tems tienen que ser redactados de tal manera qu
e dos personas con actitudes diferentes (por ejemplo, una con una actitud favora
ble y otra con una actitud desfavorable) lo contesten de manera diferente. Un tem
que pueda ser respondido de igual forma por dos personas con actitudes diferent
es es un tem inadecuado.
2. Los tems deben expresar comportamientos deseados o juicios de valor, no hechos
. Dos personas con actitudes diferentes ante la pena de muerte seguramente estarn
de acuerdo en lo que dice el siguiente enunciado: La pena de muerte acaba con la
vida de las personas . Este enunciado es un enunciado de hecho, y no es til para d
iscriminar entre dos personas con actitudes diferentes. En cambio, ante un enunc
iado valorativo como La pena de muerte es un crimen , dos personas con actitudes di
ferentes contestaran de manera distinta. Una persona a favor de la pena de muerte
estara en desacuerdo con el enunciado; una persona en contra de la pena de muert
e estara de acuerdo.
3. Los enunciados deben ser expresados de una manera clara, concisa y directa. P
ara lograr este objetivo, resulta til utilizar el vocabulario ms sencillo posible,
de manera que las personas con un nivel cultural ms bajo pertenecientes al grupo
al que va dirigido el cuestionario puedan entender los tems. La experiencia seala
que es preciso evitar frases con dobles negaciones, incluso con una sola negacin
. Los enunciados con doble sentido, y los compuestos por varias frases tambin deb
en evitarse, ya que pueden producir ambigedad o confusin en los sujetos.
4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert
(1932) recomend que aproximadamente la mitad de los tems representaran manifestac
iones de actitudes positivas o favorables, y la otra mitad de los tems constituye
ran manifestaciones de actitudes negativas o desfavorables. Por ejemplo, imagine
mos que estamos construyendo un cuestionario de actitudes hacia la escuela para
adolescentes. Un tem favorable podra ser: La escuela es divertida . Un tem desfavorabl
e podra ser: La escuela es un rollo . Obsrvese que si los sujetos utilizan una escala
de respuesta de desacuerdo-acuerdo de cinco puntos como la presentada anteriorm
ente, un sujeto con una actitud muy favorable hacia la escuela contestar los tems
favorables con cincos, mientras que responder los tems desfavorables con unos. Lo
contrario ocurrir en el caso de un sujeto con una actitud mus desfavorable hacia
la escuela. As pues, si el cuestionario contiene tanto tems favorables como desfav
orables, ningn sujeto debera responder a los tems con una respuesta estereotipada,
como por ejemplo, contestar siempre 5. Completamente de acuerdo . Es imposible esta
r de acuerdo con tems favorables a la escuela y con tems desfavorables. Si encontr
amos algn sujeto que ha contestado de esta manera estereotipada, seguramente lo h
abr hecho sin prestar atencin al contenido de los tems, y por ello, es conveniente
eliminarlo de la base de datos.

3.2. Puntuacin de los tems y de los sujetos.


Likert (1932) ensay diversas formas de puntuar los tems. La ms sencilla de

todas ellas consista en asignar puntuaciones de 1 a 5 a cada una de las cinco alt
ernativas de respuesta de desacuerdo-acuerdo presentadas anteriormente (1. Compl
etamente en desacuerdo; 2. En desacuerdo; 3. Indeciso; 4. De acuerdo; 5. Complet
amente de acuerdo). Comprob que esta forma de puntuar los tems ofreca resultados mu
y similares a los obtenidos mediante otras tcnicas ms complejas y costosas (como p
or ejemplo, los valores sigma). Actualmente, esta forma de puntuar los tems tambin
se conoce como puntuacin mediante nmeros enteros (Andrich & Schoubroeck, 1989).
Las escalas de respuesta empleadas para puntuar los tems de una escala Li
kert pueden presentar un nmero diferente de alternativas de respuesta. Las escala
s con cinco alternativas son muy frecuentes. Pero no es extrao encontrar escalas
de respuestas con cuatro, seis y siete alternativas. Las escalas con nmeros pares
omiten la categora de respuesta central, que suele ser Indeciso , Indiferente , No esto
y seguro , o Ni de acuerdo ni en desacuerdo . Existe cierto debate sobre si la catego
ra central debera incluirse o no. Algunos investigadores han recomendado el uso de
la categora de respuesta central (Edwards, 1957; Newman, 1979; Sudman y Bradburn
, 1989), argumentando que es preferible no forzar las respuestas de los sujetos
indecisos hacia un polo (acuerdo o desacuerdo) que podra no describirles. Sin emb
argo, otros estudios han cuestionado el uso de las categoras centrales porque stas
pueden atraer a las personas que las seleccionan por razones diferentes de cul e
s su posicin en la actitud medida (Bock y Jones, 1968; Worthy, 1969; Kaplan, 1972
; Dubois y Burns, 1975). Investigaciones recientes sobre este tema han revelado
que casi un 50% de los sujetos que responde mediante diferentes tipos de categora
s de respuesta centrales lo hace por razones diferentes a la de estar en el punt
o medio de la dimensin medida (Espejo, 1998; Espejo y Gonzlez-Rom, 1999). Otros est
udios han mostrado que incluso los sujetos con niveles medios en la dimensin medi
da, tiene una probabilidad muy pequea de contestar utilizando la categora central,
y es ms probable que respondan utilizando otras categoras de respuesta adyacentes
, como En desacuerdo o De acuerdo (Andrich, de Jong y Sheridan, 1997; Hernndez, Espej
o, Gonzlez-Rom y Gmez-Benito, en prensa; Espejo y Gonzlez-Rom, 2001). As pues, en base
a los ms recientes resultados de la investigacin sobre el tema, parece que la uti
lidad de la categora de respuesta central est seriamente cuestionada.
Las escalas de respuesta con seis alternativas suelen ser muy similares
a la siguiente:
1. Completamente en desacuerdo.
2. Bastante en desacuerdo.
3. Algo en desacuerdo.
4. Algo de acuerdo.
5. Bastante de acuerdo.
6. Completamente de acuerdo.
Las escalas de respuesta que presentan siete alternativas incluyen en la escala
anterior una categora de respuesta central a la que se le asigna la puntuacin de 4
.
Todas las escalas de respuesta que se utilizan en las escalas Likert son
politmicas, pues presentan ms de dos alternativas de respuesta. Adems, son escalas
de respuesta ordenadas o graduadas, ya que la asignacin de los nmeros enteros a la
s distintas respuestas constituye una escala ordinal. A partir de las puntuacion
es obtenidas por distintos sujetos en un mismo tem, podemos hacer inferencias ace
rca de quines tienen una actitud ms o menos favorable, pero no podemos determinar
cul es la distancia entre sujetos que responden con alternativas diferentes.
Una vez se ha determinado cmo se puntuar cada tem, pero antes de calcular la
puntuacin de cada sujeto en el cuestionario, hay que detectar los tems invertidos
y transformar la puntuacin obtenida en ellos de manera que tenga el mismo signif
icado que la puntuacin obtenida en el resto de tems. Como sealamos anteriormente, L
ikert (1932) recomend que aproximadamente la mitad de los tems representaran manif
estaciones de actitudes positivas o favorables, y la otra mitad de los tems const

ituyeran manifestaciones de actitudes negativas o desfavorables. Si se sigue est


e criterio, nos encontraremos con que no todos los tems estn redactados en el mism
o sentido, y esto tiene importantes repercusiones en el significado de las puntu
aciones de los tems. Volvamos a nuestro ejemplo del cuestionario de actitudes hac
ia la escuela. Una puntuacin de 5 (Completamente de acuerdo) a un tem favorable ( La
escuela es divertida ), no tiene el mismo significado que una puntuacin de 5 a un t
em desfavorable ( La escuela es un rollo ). En el primer caso la puntuacin denota una
actitud favorable, mientras que en el segundo indica una actitud desfavorable.
Por ello, estas puntuaciones no pueden sumarse para obtener una puntuacin de los
sujetos. Previamente, es preciso que todas las puntuaciones en los tems estn en la
misma direccin. Para ello se procede a transformar las puntuaciones de los tems q
ue no estn redactados en el sentido que ms interesa. Por ejemplo, si interesa obte
ner una puntuacin que indique el grado de actitud hacia la escuela de manera que
a mayor puntuacin se pueda inferir una actitud ms favorable, entonces habr que tran
sformar los tems que denotan una actitud desfavorable. Antes de la transformacin,
estos tems suelen denominarse tems invertidos.
Cuando se trabaja con una base de datos grande, la transformacin de los tem
s invertidos puede realizarse fcilmente con la ayuda de un programa estadstico de
anlisis de datos, o incluso con una hoja de clculo, implementando una frmula de tra
nsformacin. Si la escala de respuesta empleada presenta como valor ms pequeo el 1 (
que es lo ms frecuente), entonces la frmula de transformacin es:
Pi = (Pm+1) - Po
donde:
Pi : puntuacin transformada en el tem invertido lista para calcular la puntuacin to
tal en el cuestionario;
Pm : puntuacin mxima que puede darse al tem;
Po : puntuacin original obtenida en el tem invertido.
Si la escala de respuesta utilizada para contestar los tems presenta como
valor ms pequeo el cero, entonces la frmula de transformacin es:
Pi = Pm - Po
Por ejemplo, supongamos que un sujeto ha contestado cuatro tems del cuesti
onario de actitudes hacia la escuela utilizando una escala de respuesta de 6 pun
tos como la presentada en este mismo apartado. Imaginemos que sus puntuaciones e
n los tems son las siguientes:
Items
1. La
2. En
3. La
4. En

Puntuacin (Po)
escuela es divertida
5
la escuela aprendo cosas tiles. 6
escuela es un rollo
2
la escuela pierdo el tiempo.
1

Los tems 1 y 2 manifiestan una actitud favorable, mientras que los tems 3 y 4 deno
tan una actitud desfavorable. Procedamos ahora a transformar los tems 3 y 4 aplic
ando la frmula correspondiente. Como la escala de respuesta oscila entre 1 y 6, a
plicaremos la frmula Pi = (Pm+1) - Po.
Items Puntuacin (Po) Puntuacin transformada (Pi)
3. La escuela es un rollo
2
(6+1)-2 = 5
4. En la escuela pierdo el tiempo.
1
(6+1)-1 = 6
Ahora que ya hemos transformado las puntuaciones obtenidas en los tems inv
ertidos, podemos calcular la puntuacin total de cada sujeto en el cuestionario. C
omo se indic al comienzo de este tema, la puntuacin total de un sujeto en el cuest
ionario se determina sumando o promediando los valores de las alternativas de re
spuesta escogidas ante cada tem (Likert, 1932), razn por la que las escalas o cues
tionarios construidos siguiendo este mtodo se denominan escalas sumativas. En el

ejemplo anterior, la puntuacin total del sujeto sera:


Items Puntuacin
1. La escuela es divertida
5
2. En la escuela aprendo cosas tiles. 6
3. La escuela es un rollo
5
4. En la escuela pierdo el tiempo.
6
Puntuacin total (suma) 22
3. 3. Anlisis y seleccin de tems.
Una vez que ya se ha elaborado un banco inicial de tems, y se ha aclarado
cmo se puntuar cada uno de ellos y cmo se obtendr la puntuacin de cada sujetos, se i
nicia la fase de anlisis cuantitativo de los tems. El banco de tems ha de aplicarse
a una muestra que sea representativa de la poblacin a la cual va dirigida el tes
t. Esta muestra proporcionar los datos que utilizaremos para realizar el anlisis c
uantitativo de los tems.
Likert propuso dos tipos de anlisis: 1. un anlisis correlacional de los tem
s, y 2. un anlisis basado en el criterio de consistencia interna (Likert, 1932; M
cIver y Carmines, 1981).
3.3.1. Anlisis correlacional de los tems.
El anlisis correlacional consiste en calcular la correlacin entre cada tem
y la puntuacin total en el cuestionario o test (es decir, la suma de todos los tem
s). Esta correlacin es conocida en el marco de la Teora Clsica de los Tests como ndi
ce de homogeneidad (IH). Si el tem analizado mide lo mismo que el resto de tems, e
l ndice de homogeneidad ser elevado, de manera que los sujetos que puntan alto en e
l tem, tambin tendern a puntuar alto en el cuestionario, y los sujetos que puntan ba
jo en el tem, tendern a puntuar bajo en el cuestionario. Si el ndice de homogeneida
d es bajo o cercano a cero, entonces el tem analizado no mide lo que mide el rest
o de tems. Likert denomin a los tems con un ndice de homogeneidad bajo como tems indi
ferenciadores (Likert, 1932).
Los tems indiferenciadores aportan escasa o ninguna informacin til sobre la
actitud que se est midiendo, por ello no tiene sentido combinarlos con el resto
de tems para obtener una puntuacin total (McIver y Carmines, 1981). Adems, como dem
uestra la Teora Clsica de los Tests, su uso puede perjudicar a la fiabilidad y a l
a validez del test. Por todo ello, los tems indiferenciadores deben eliminarse.
El clculo del ndice de homogeneidad como la correlacin entre la puntuacin en
el tem y la puntuacin en el test (en adelante, correlacin tem-test) tiene el siguie
nte inconveniente: la puntuacin total en el test incluye al tem como componente, e
s decir, el tem analizado aparece en las dos variables que se correlacionan, y es
to aumentar artificialmente el coeficiente de correlacin que se obtenga. Para evit
ar este efecto, lo que se hace es calcular la correlacin entre el tem y el test un
a vez que se ha eliminado de este ltimo la contribucin del tem. Esta correlacin reci
be el nombre de ndice de homogeneidad corregido(IHc), y se indica mediante la exp
resin ri(T-i) . La frmula para calcular el ndice de homogeneidad corregido es (Pete
rs y Van Vorhis, 1940):

donde, riT es la correlacin tem-test, Si es la desviacin tpica que muestran las punt
uaciones en el tem, y ST es la desviacin tpica que presentan las puntuaciones en te
st.
Para interpretar el ndice de homogeneidad corregido suele tomarse como val

or de referencia 0.20. De manera que todos los tems que presentan ri(T-i) con val
ores inferiores a 0.20 son eliminados del banco de tems por ser indiferenciadores
.
Ejemplo de clculo.
Supongamos que 16 sujetos han contestado a los cuatro tems del cuestionar
io de actitudes hacia la escuela que utilizamos anteriormente. Despus de transfor
mar los tems invertidos, se han calculado las puntuaciones en el test. Las puntua
ciones en los tems despus de realizar las transformaciones y en el test aparecen e
n la tabla que se muestra a continuacin. Vamos a ilustrar cmo calcularamos el ndice
de homogeneidad corregido (IHc) del tem 1.

La frmula de clculo del IHc implica la obtencin del IH y de las desviacione


s tpicas del test y del tem. Recordemos que las frmulas para calcular el coeficient
e de correlacin de Pearson y la desviacin tpica son:
donde n es el tamao de la muestra, y z denota puntuaciones tpicas.
En la tabla siguiente, se muestran los estadsticos necesarios para calcular IH. T
an slo hay que recordar que en nuestro caso la variable X es el tem 1, y la variab
le Y la puntuacin en el test. As pues, vemos que ?ztem1 ztest = 13.47, es decir, ya
tenemos el valor del sumatorio del producto cruzado de las puntuaciones tpicas,
que es el numerador de la frmula del coeficiente de correlacin.
ZTEST
ZITEM1
TEST
ITEM4
ITEM3
ITEM2
ITEM1
21SUJETOS
0,47
5430,81
0,06
6-0,31
71,54
1,23
8-1,27
0,45
90,33
10
1,08
11
0,18
12
0,77
-0,79
13
14
0,92
-0,95
15
0,57
0,97
16
1,94
-1,11
SUMA
0,66
1,13
12,94
3,31
2,88
3,50
3,25
MEDIA
6,23
1,74
1,96
1,75
1,29
D-0,58
-0,19
1,36
950181,74
0,97
3,47
.T.
0,19 X ZTEST
Luego, el valor del IH ser:
Ahora ya podemos calcular el ndice de homogeneidad corregido (IHc):
El resultado obtenido indica que el tem est muy relacionado con el resto de
tems que componen el test, debido a que miden la misma actitud. Como caba esperar
, el IHc es menor que el IH, y la diferencia es apreciable debido a la pequea lon
gitud del test: tan slo 4 tems. En este caso un 25% del test (es decir, 1 tem de 4)
es parte de las dos variables que correlacionamos cuando calculamos el IH. Este
porcentaje se reduce a medida que aumenta la longitud del test (cuando la longi
tud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%,
...). Por ello, cuanto mayor sea la longitud del test menor ser la diferencia e
ntre el IH y el IHc. Cuando trabajamos con tests muy largos la diferencia es muy
pequea.

3.3.2. Anlisis basado en el criterio de consistencia interna.


Cuando Likert (1932) desarroll su mtodo de escalamiento, los investigadore
s no disponan de ordenadores para realizar los clculos implicados en los anlisis cu
antitativos de los tems. Calcular los ndices de homogeneidad de un test aplicado a
una muestra grande conllevaba mucho tiempo y resultaba costoso. Para ahorrar es
fuerzos y tiempo, Likert desarroll un segundo tipo de anlisis basado en el criterio

de consistencia interna . Este anlisis consiste en comparar las puntuaciones en el


tem del grupo que tiene las puntuaciones ms altas en el test (y que por lo tanto,
tiene una actitud favorable), con las puntuaciones en el tem del grupo que tiene
las puntuaciones ms bajas en el test (y que, por consiguiente, tiene una actitud
desfavorable). En principio, cabe esperar que dos grupos con actitudes diferent
es tengan puntuaciones medias diferentes en el tem analizado. Si esto no ocurre s
e debe a que el tem no es un buen indicador de la actitud medida, y se trata de u
n tem indiferenciador. Si los dos grupos obtienen puntuaciones medias en el tem di
ferentes, entonces puede afirmarse que el tem discrimina entre los grupos, y, por
lo tanto, es un buen indicador de la actitud medida.
Los dos grupos a comparar suelen estar compuestos por el 25% de los suje
tos con puntuaciones ms altas y ms bajas en el test; no obstante, Likert (1932) ta
mbin utiliz otros porcentajes, como el 10%. Inicialmente, este criterio se basaba
simplemente en el clculo de la diferencia entre las medias de los dos grupos en e
l tem. Sin embargo, esta diferencia no tena en cuenta que los dos grupos podan pres
entar variabilidades distintas en el tem. Para evitar esta deficiencia, ms tarde s
e comenz a usar una prueba t para evaluar la diferencia entre las medias consider
ando la variabilidad del tem en los dos grupos. El estadstico t sigue una distribu
cin t de Student con (nA + nB 2) grados de libertad donde n es el tamao del grupo,
y los subndices A y B denotan los grupos extremos alto y bajo, respectivamente-,
y se calcula mediante la frmula:
donde el numerador es la diferencia entre las medias en el tem de los dos grupos,
y S2 indica la varianza en el tem del grupo correspondiente.
Ejemplo de clculo.
Vamos a aplicar este tipo de anlisis basado en el criterio de consistenci
a interna a los datos que utilizamos anteriormente. Como en el caso anterior, el
anlisis se centrar en el tem 1. En la siguiente tabla aparecen las puntuaciones de
los 16 sujetos, pero stos han sido ordenados de manera decreciente en funcin de s
u puntuacin en el test. Los sujetos que configuran los dos grupos con puntuacione
s extremas en el test estn marcados en negrita.
TEST
ITEM4
ITEM3
ITEM2
ITEM1
3SUJETOS
MEDIA
4,5
1,75
D.
0,5
0,43
1564211
16
87912
M1410359EDIA
8 T. BA
Si el tem discrimina entre los dos grupos, entonces observaremos que:
Las hiptesis estadsticas implicadas en esta prueba de diferencias entre medias son
:
Conociendo las medias y las desviaciones tpicas que los dos grupos presentan en e
l tem 1, vamos a calcular el estadstico t1.
Si asumimos un nivel de significacin ?=0.05, en la tabla de distribucin de
probabilidad t de Student, observamos que el valor de t para 1-?? = 0.95 y 6 gr
ados de libertad es: 0.95 t 6 = 1.943. Como el valor emprico obtenido para el es
tadstico t (11.75) es mucho mayor que el valor obtenido en las tablas para un ?=0
.05, podemos afirmar que la probabilidad de obtener una diferencia entre las med
ias como la observada, bajo el supuesto de que H0 sea cierta, es muy pequea. Por
ello, dudamos de H0, la rechazamos, y aceptamos H1. En nuestro caso, esto signi
fica que el tem s que discrimina entre los dos grupos.
Ya sealamos anteriormente que el anlisis basado en el criterio de consisten
cia interna estuvo motivado por el elevado coste en tiempo y esfuerzo que supona
el clculo de correlaciones cuando Likert desarroll su mtodo. Hoy en da, gracias al u
so de los ordenadores y programas estadsticos, este argumento carece de sentido.

En la prctica, es el anlisis correlacional basado en el clculo de IHc el que se des


arrolla.

Likert (1932) estudi la relacin entre los resultados producidos por los dos
mtodos de anlisis. Orden un conjunto de tems en funcin de su IH, y los orden tambin e
funcin de la diferencia que los dos grupos extremos mostraban en cada tem. La rel
acin entre los dos rdenes fue estimada mediante el coeficiente de correlacin rho, q
ue present un valor de 0.91. Este resultado indica un grado de relacin muy alto en
tre los dos rdenes obtenidos, lo cual sugiere que los dos mtodos de anlisis tienden
a producir resultados similares. Esto no es de extraar, ya que si un tem presenta
un elevado IH, los sujetos que puntan alto en el tem tendern a puntuar alto en el
test, y los sujetos que puntan bajo en el tem tendern a puntuar bajo en el test. Y
viceversa: el grupo con puntuaciones altas en el test tender a mostrar puntuacion
es altas en el tem, y el grupo con puntuaciones altas en el test tender a mostrar
puntuaciones altas en el tem. Sin embargo, hay que tener en cuenta que Likert cor
relacion rdenes de clasificacin (esto es, rankings), y que los rdenes no informan ac
erca de si un determinado criterio de anlisis es superado o no (por ejemplo: IHc
? 0.20). Por ello, aunque los resultados de ambos tipos de anlisis estn relacionad
os, pueden no conducir necesariamente a la misma conclusin (McIver y Carmines, 19
81). As pues, cuando se han aplicado los dos tipos de anlisis es conveniente elimi
nar los tems que tengan IHc bajos y los que no discriminen entre los grupos con p
untuaciones extremas en el test. Estos tems son los tems indiferenciadores.
Likert (1932) seal algunas de las razones por las que un tem puede resultar
indiferenciador:
a. Puede medir una actitud diferente a la que miden el resto de tems.
b. Puede ser respondido por casi todos los sujetos de la misma forma.
c. Puede estar redactado de manera que no sea entendido correctamente.
d. Puede tratarse de un enunciado de hecho.
3.4. Evaluacin de la fiabilidad y validez de la escala.
Una vez se ha seleccionado un conjunto de tems, hay que evaluar las propi
edades psicomtricas del test o cuestionario que forman considerado como un todo.
Las dos propiedades psicomtricas ms importantes son la fiabilidad, y la validez2.
Para que un test sea un instrumento de medida til hay que demostrar su fiabilidad
y su validez. Brevemente, sealaremos que la fiabilidad hace referencia al grado
de precisin que ofrecen las medidas obtenidas mediante un test. Supone tambin un i
ntento por cuantificar el grado de error que afecta a esas medidas. Un mtodo bast
ante extendido para estimar la fiabilidad de un test consiste en calcular el coe
ficiente alfa de Cronbach, cuya frmula es la siguiente:
donde n es la longitud del test (es decir, el nmero de tems que lo componen), S2i
es la varianza del tem i, y S2x es la varianza que muestran las puntuaciones tota
les en el test. Un criterio bastante extendido para interpretar el coeficiente a
lfa es que ste ha de ser igual o superior a 0.70 (Nunnally, 1978), entonces puede
afirmarse que el test tiene una fiabilidad suficiente.
Ejemplo de clculo.
Con los datos del ejemplo que estamos utilizando, vamos a calcular el co
eficiente alfa del cuestionario de actitudes hacia la escuela. En la primera tab
la que hemos mostrado, aparecen las desviaciones tpicas de cada uno de los cuatro
tems y de las puntuaciones totales en el test. Con esta informacin ya podemos apl
icar la frmula del coeficiente alfa de Cronbach:
El resultado obtenido indica que el cuestionario es fiable.

La validez de un test hace referencia al grado en el que un test mide lo


que pretende medir. El estudio de la validez de un test se desarrolla a partir d
e la verificacin de las hiptesis de validacin. Una hiptesis de validacin hace referen
cia a las relaciones que presentar el test objeto de estudio con otras variables,
bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en el caso del
cuestionario de actitudes hacia la escuela una hiptesis de validacin podra ser la
siguiente: Se espera que las puntuaciones totales en el test presenten una corre
lacin positiva con el rendimiento acadmico, de manera que a mayor puntuacin en el t
est se observe un mayor rendimiento acadmico. Las hiptesis de validacin se fundamen
tan en teoras contrastadas y/o en resultados empricos previos. La hiptesis de valid
acin indica cul es el mtodo estadstico que se utilizar para su verificacin. En el caso
anterior, la hiptesis alude a la relacin entre dos variables cuantitativas, por
lo tanto, su verificacin se realizara calculando el coeficiente de correlacin entre
las variables. Las hiptesis de validacin pueden tomar diversas formas, y por lo t
anto, pueden ser diversos los mtodos estadsticos implicados en su verificacin. Para
ilustrar este punto, veamos otro ejemplo. Supongamos que se ha elaborado un cue
stionario de actitud hacia el aborto. Si el test mide la actitud que pretende me
dir, las puntuaciones en el test de dos grupos de sujetos que mantienen actitude
s extremas y opuestas, deberan ser diferentes. Por lo tanto, en el proceso de va
lidacin del test se ha elaborado la siguiente hiptesis de validacin: La puntuacin me
dia en el test de un grupo de mujeres pertenecientes a asociaciones feministas s
er mayor que la puntuacin media de un grupo de mujeres pertenecientes a asociacion
es catlicas. En este caso, la hiptesis de validacin implica la comparacin de dos med
ias, comparacin que se puede realizar mediante la prueba t correspondiente. Obsrve
se que a diferencia de lo que ocurra cuando se usaba el criterio de consistencia
interna para analizar los tems, aqu se definen los dos grupos con actitudes opuest
as y extremas en base a un factor externo al test: su pertenencia a asociaciones
que mantienen posturas contrarias respecto al aborto.
El proceso de validacin de un test es un proceso continuo, en el que se va
n acumulando evidencias acerca de su validez. Slo cuando se ha acumulado un nmero
suficientemente amplio de evidencias es posible establecer de manera fundada una
serie de conclusiones acerca de la validez.
4. INTERPRETACIN DE LAS PUNTUACIONES.
Las puntuaciones obtenidas en una escala Likert no tienen una interpretac
in directa. Sabemos que un sujeto que obtuviera una puntuacin de 24 (puntuacin mxima
) en el cuestionario de actitudes hacia la escuela del ejemplo tendra una actitud
muy favorable, y que un sujeto que obtuviera una puntuacin de 4 (puntuacin mnima)
presentara una mus desfavorable. Pero, qu podemos decir de un sujeto que obtiene un
a puntuacin de 14? El mtodo de Likert no permite medir los tems, es decir, no ofrece
estimaciones del grado de actitud que hay que tener para estar de acuerdo con un
tem. Por lo tanto, no es posible ofrecer una interpretacin absoluta de la puntuac
in de un sujeto (McIver y Carmines, 1981). Si supiramos que un sujeto respalda los
tems que requieren un alto grado de actitud favorable para dar una respuesta de
acuerdo, entonces podramos inferir que ese sujeto tiene un nivel de actitud muy f
avorable.
Por todo ello, para poder interpretar las puntuaciones obtenidas en una e
scala Likert es necesario referirlas a las puntuaciones obtenidas por el grupo d
e referencia al que pertenece el sujeto. Una forma de hacerlo es calcular la dif
erencia entre las puntuaciones de los sujetos (Xi) y la media del grupo (es deci
r, calcular las puntuaciones diferenciales). Adems, podemos medir esas diferencia
s utilizando como unidad de medida la desviacin tpica de las puntuaciones en el cu
estionario en ese grupo. Para ello dividiremos las diferencias por la desviacin tp
ica, lo cual no es ms que transformar las puntuaciones directas en el test (Xi) e
n puntuaciones tpicas (zi):

Las puntuaciones tpicas nos indican cuntas desviaciones tpicas se aleja la p


untuacin del sujeto de la media de su grupo, y en qu sentido. Por ejemplo, si un s
ujeto presenta una zi = -0.5, entonces podemos decir que se trata de un sujeto q
ue est media desviacin tpica por debajo de la media del grupo. Si las puntuaciones
en el test siguen una distribucin aproximadamente normal, entonces, con ayuda de
las tablas de la distribucin normal, podemos transformar esa puntuacin tpica en el
porcentaje de sujetos que quedan por debajo (o por encima) de esa puntuacin. El v
alor de probabilidad (funcin de distribucin) asociado a zi = -0.5 es 0.3085. Ahora
podemos decir que el sujeto que ha obtenido una zi = -0.5 supera aproximadament
e al 31% de los sujetos de su grupo. Si las puntuaciones en el test no siguen un
a distribucin aproximadamente normal no debe realizarse esta ltima transformacin. E
ntonces podemos calcular el centil que corresponde a cada puntuacin en el test. D
e esta manera sabremos cul es el porcentaje de sujetos que queda por debajo de ca
da puntuacin en el test.

5. VALORACIN.
Una de las crticas que suele hacerse del mtodo de escalamiento de Likert es
que no est basado en un modelo matemtico determinado. Esta es una diferencia impo
rtante con los mtodos desarrollados por Thurstone, que bas sus mtodos en una serie
de supuestos formales y unas leyes (por ejemplo, la Ley del Juicio Comparativo).
En todo caso, el mtodo de Likert puede emnarcarse dentro del mbito ms general de l
a Teora Clsica de los Tests.
Otra crtica se refiere al uso del coeficiente de correlacin tem-test (ndice d
e homogeneidad) como base para realizar el anlisis correlacional de los tems. Ya h
emos sealado que para evitar aumentar artificialmente esa correlacin es necesario
utilizar el ndice de homogeneidad corregido.
La verificacin de la unidimensionalidad del test tambin presenta ciertas de
ficiencias. Likert (1932) supona que una vez se hubiera eliminado todos los tems i
ndiferenciadores, los tems restantes mediran una misma dimensin subyacente o actitu
d. Sin embargo, esto no tiene que ser necesariamente as. Si un test mide dos acti
tudes diferentes pero relacionadas, los IHc sern probablemente elevados, y llevarn
a la conclusin errnea de que los tems miden una nica actitud. El clculo de los IHc n
o es una buena base para evaluar la unidimensionalidad del test. En su lugar hay
que utilizar mtodos ms apropiados como el anlisis factorial.
Recordemos que Likert pretenda desarrollar un mtodo sencillo para medir las
actitudes que ofreciera resultados similares al mtodo ms costoso de los intervalo
s aparentemente iguales desarrollado por Thurstone. Likert (1932) observ que la f
iabilidad de los cuestionarios producidos por los dos mtodos era muy similar, y q
ue la correlacin entre las puntuaciones obtenidas por los dos mtodos era muy eleva
da. Estos resultados muestran que Likert consigui su objetivo. Quizs lo que no pre
vi Likert es que su mtodo tuviera tanto xito. Su relativa sencillez, en comparacin a
otros mtodos ms modernos, es la responsable de que actualmente sea todava el mtodo
ms utilizado para medir actitudes, dimensiones de la personalidad, y otros constr
uctos psicolgicos.

BIBLIOGRAFIA.
Arce, C. (1994). Construccin de escalas psicolgicas. Madrid: Sntesis.
Garca Cueto, E. (1993). Introduccin a la psicometra. Madrid: Siglo XXI.
Meli, J. L. (1991). Mtodos de escalamiento unidimensional. Valencia: Cristbal Serra

no Villalba.
Sancerni, M. D.; Meli, J. L.; Gonzlez Rom, V. y Daz, J. V. (1992). Psicometra: Proble
mas y Prcticas. Valencia: Cristbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medicin en Ciencias Sociales. Buenos Aires: Nueva
Visin.
Referencias bibliogrficas.
Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a psycho
metric analysis using latent trait theory. Psychological Medicine, 19, 469-485.
Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with th
e Rasch model for ordered response categories. En J. Rost y R. Langeheine (Eds.)
, Applications of latent trait and latent class models in the social sciences (p
p. 58-68). Mnster, Germany: Waxman Verlag.
Bock, R. y Jones, L. V. (1968). The measurement and prediction of judgement and
choice. San Francisco: Holden Day.
Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question mar
k response category in attitude scales. Educational and Psychological Measuremen
t, 35, 869-884.
Edwards, A. L. (1957). Techniques of attitude scale construction. New York: Appl
eton-Century-Crofts.
Espejo, B. y Gonzlez-Rom, V. (1999). El significado de las categoras centrales en l
as escalas tipo Likert. Trabajo presentado al VI Congreso de Metodologa de las CC
. Sociales y de la Salud. Oviedo, Espaa.
Espejo, B. y Gonzlez-Rom, V. (2001). Orden y relevancia de las alternativas de res
puesta "no estoy seguro", "trmino medio" y "?". Trabajo presentado al VII Congres
o de Metodologa de las CC. Sociales y de la Salud. Madrid, Espaa.
Hernndez, A.; Espejo, B.; Gonzlez-Rom, V. y Gmez-Benito, J. (en prensa). Escalas de
respuesta tipo Likert: es relevante la alternativa indiferente ?. Metodologa de Encu
estas
Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude theory
: A suggested modification of the semantic differential technique. Psychological
Bulletin, 77, 361-372.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psy
chology, 140, 1-50. (Traduccin al castellano en C. H. Wainerman (Comp.) (1976), E
scalas de medicin en ciencias sociales, pp-199-260. Buenos Aires: Nueva visin.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, C
A: Sage.
Neumann, L. (1979). Effects of categorization on relationships in bivariate dist
ributions and applications to rating scales. Dissertation Abstracts Internationa
l, 40, 2262-B
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathe
matical bases. New York: McGraw-Hill.
Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording responses. E
n Sudman, S. y Bradburn, N. M. (Eds.). Asking questions: a practical guide to qu
estionnaire design. San Francisco: Jossey-Bass Publishers.
Worthy, M. (1969). Note on scoring midpoint responses in extreme response style
scores. Psychological Reports, 24, 189-190.

1 El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en


el anlisis de tems. En la prctica, y trabajando con muestras ms grandes, es necesar
io verificar hasta qu punto se cumplen los supuestos de la prueba.
2 Estas dos propiedades sern objeto de un estudio ms detenido en el bloque de tema
s dedicado a la Teora de los Tests.

--------------------------------------------------------------------------------------------------------------------------------------------------

Das könnte Ihnen auch gefallen