819

x xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB

http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu
Nmeru 8, 4u l
4bril 2010/ Parte l
I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x
O OO Ow ww w< << <m mm m 1 11 1< << << << <
T TT T T TT TE EE E E EE E0 00 0 0 00 0R RR R R RR R A AA A A AA A D DD D D DD DE EE E E EE E R RR R R RR RE EE E E EE ES SS S S SS SP PP P P PP PU UU U U UU UE EE E E EE ES SS S S SS ST TT T T TT TA AA A A AA A A AA A A AA AL LL L L LL L T TT T T TT TE EE E E EE EM MM M M MM M
D DD D D DD Dr rr r r rr r. .. . . .. . C CC C C CC C. .. . . .. . P PP P P PP Pa aa a a aa au uu u u uu uI II I I II I T TT T T TT To oo o o oo or rr r r rr rr rr r r rr re ee e e ee es ss s s ss s F FF F F FF Fe ee e e ee er rr r r rr rn nn n n nn n n nn n n nn nd dd d d dd de ee e e ee ez zz z z zz z / // / / // / C CC C C CC Cu uu u u uu ub bb b b bb ba aa a a aa a ( (( ( ( (( (P PP P P PP Pa aa a a aa ar rr r r rr rr rr r r rr re ee e e ee e I II I I II I) )) ) ) )) )
I In nv vI Ir ra ad do o E Es sp pe ee eI Ia aI I: : A AA A A AA AI II I I II Iv vv v v vv va aa a a aa ar rr r r rr ro oo o o oo o A AA A A AA Ar rr r r rr rr rr r r rr ra aa a a aa av vv v v vv vI II I I II Ia aa a a aa a M MM M M MM Me ee e e ee ed dd d d dd dr rr r r rr ra aa a a aa an nn n n nn no oo o o oo o / // / / // / C CC C C CC Co oo o o oo os ss s s ss sr rr r r rr ra aa a a aa a R RR R R RR RI II I I II Ie ee e e ee ea aa a a aa a ( (( ( ( (( (P PP P P PP Pa aa a a aa ar rr r r rr rr rr r r rr re ee e e ee e I II I I II II II I I II I) )) ) ) )) )
Se han dejado atrs, prcticamente,
las dos terceras partes de los Nmeros
previstos para el Ao del Boletn.
Despus de analizar el objeto principal
de trabajo de la lnea de investigacin
del Programa Ramal
1
, la manera de
concebirlo especialmente para Cuba y
sus direcciones principales (en otras
palabras, el qu de la lnea), se
comenz a analizar, con los Nmeros
6 y 7, las formas y tcnicas de trabajo
de esta ciencia de la educacin (o sea,
el cmo).
Se abordarn entonces, en los tres
ltimos Nmeros del Ao, recursos
especficos de trabajo, que explican
en alguna medida- por qu los
evaluadores educativos constituyen un
caso especial de investigadores de las
ciencias de la educacin y requieren,
para su buen desempeo, de una
preparacin especial, que va ms all
de la que cualquier otro educador
recibe, en su formacin profesional,
para hacer uso de la investigacin
cientfica.
Lamentablemente, estas tcnicas
especficas de trabajo redundan en el
enfoque cuantitativo de investigacin.
Ojal llegue el da en que los
evaluadores educativos puedan exhibir
tambin tcnicas, igualmente propias
de su disciplina cientfica, centradas en
el enfoque cualitativo. Por cierto, si
alguna comunidad cientfica nacional
est en condiciones de lograrlo rpidamente cree este autores la cubana; no
por chovinismo, sino por la conjuncin de varios factores favorables.

1
Recurdese que el trmino Programa Ramal se utiliza en el pas para designar a un
conjunto de Proyectos de Investigacin que tienen una lnea de trabajo comn y que
resulta de inters especial para una rama (organismo central) del Estado.
AO I: R Re ef fe er re en nt te es s t te e r ri ic co os s d de e l la a
l l n ne ea a d de e i in nv ve es st ti ig ga ac ci i n n
N N M ME ER RO OS S A AN NT TE ER RI IO OR RE ES S: :
E Ev va al lu ua ac ci i n n E Ed du uc ca at ti iv va a
( (s se ep pt ti ie em mb br re e 2 20 00 09 9) )
S Si is st te em ma a C Cu ub ba an no o d de e E Ev va al lu ua ac ci i n n
d de e l la a C Ca al li id da ad d d de e l la a E Ed du uc ca ac ci i n n
( (o oc ct tu ub br re e 2 20 00 09 9) )
C Ca al li id da ad d E Ed du uc ca at ti iv va a
( (n no ov vi ie em mb br re e 2 20 00 09 9) )
E Eq qu ui id da ad d E Ed du uc ca at ti iv va a
( (d di ic ci ie em mb br re e 2 20 00 09 9) )
E Ef fi ic ca ac ci ia a E Es sc co ol la ar r ( (e en ne er ro o 2 20 01 10 0) )
I In nv ve es st ti ig ga ac ci i n n C Cu ua an nt ti it ta at ti iv va a
( (f fe eb br re er ro o 2 20 01 10 0) )
I In nv ve es st ti ig ga ac ci i n n C Cu ua al li it ta at ti iv va a
( (m ma ar rz zo o 2 20 01 10 0) )
P PR R X XI IM MO OS S N N M ME ER RO OS S: :
M Mo od de el lo os s J Je er r r rq qu ui ic co os s L Li in ne ea al le es s
( (m ma ay yo o 2 20 01 10 0) )
S Si is st te em ma as s d de e E Ec cu ua ac ci io on ne es s
E Es st tr ru uc ct tu ur ra al le es s ( (j ju un ni io o 2 20 01 10 0) )
AO II: E Ex xp pe er ri ie en nc ci ia as s e ev va al lu ua at ti iv va as s
d de e l la a e ed du uc ca ac ci i n n e en n C Cu ub ba a
G Gr ru up po os s P Pr ro ov vi in nc ci ia al le es s
P Pr ro oy ye ec ct to os s A As so oc ci ia ad do os s
E Ed du uc ca ad do or r E Ev va al lu ua ad do or r
T Te es si is s D Do oc ct to or ra al le es s y y d de e M Ma ae es st tr r a a
A Ar rt t c cu ul lo os s y y P Po on ne en nc ci ia as s

z zz z z zz z

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
Adems de lo anterior, por disponer de colectivos de investigadores (Proyectos de
Investigacin Asociados, e incluso un Grupo de investigadores en un nstituto de
nvestigacin y dos Centros de Estudio en igual cantidad de Universidades)
especialmente dedicados a esa lnea de investigacin; por otro, por estar
relativamente despojados de la impronta necesariamente cuantitativa que le
imprimen a esta disciplina cientfica los consorcios internacionales y, por ltimo,
por la indiscutible fortaleza que han logrado las provincias orientales del pas en la
mirada hermenutica del quehacer cientfico en la educacin.
Qu es la Teora de Respuesta al Item?
Se ha estado sealando que la Evaluacin Educativa es un caso especial de
investigacin pedaggica y uno de los principios bsicos que sustentan a la
investigacin cientfica (de orientacin cuantitativa) es que los instrumentos de
investigacin que se utilicen sean vlidos y confiables
2
. Como se conoce, la
confiabilidad est determinada en la prctica- por la consistencia de los
resultados de los instrumentos ante individuos distintos, convirtindose as,
adems, en el pilar de la necesaria comparacin de los resultados de la
evaluacin de la educacin
3
.
Sin embargo, las inferencias que se realizan de los resultados de los instrumentos
que usualmente se utilizan en las investigaciones orientadas por la Teora Clsica
del Test (TCT)
4
, tanto de rendimiento cognitivo como de rendimiento no cognitivo,
e incluso de factores asociados a estos (encuestas, revisin de cuadernos de los
estudiantes, etc.) no cumplen en rigor- con ese principio bsico. El escollo sera
superado si se dispusiera de un modelo a partir del cual se puedan construir
instrumentos cuyos resultados no dependan de los individuos que lo responden.
El lector nacional no debiera ver esta dificultad metodolgica como algo hipottico
y, por tanto, lejano o poco probable; hay evidencias de su manifestacin y efecto
engaoso en el pas. Por ejemplo, durante el Operativo Nacional de Evaluacin de

2
"Se pueden agrupar los principales tipos de problemas que debe enfrentar cualquier
evaluacin en torno a dos conceptos: validez y confiabilidad" (Ravela, 2006a: 57).
3
"La confiabilidad es una cuestin de grado: los resultados nunca son perfectamente
precisos, siempre estn sujetos a error. Este error puede ser grande o chico y lo
importante es poder estimarlo. Lo grave en una evaluacin es que no exista ninguna
estimacin de error, porque entonces no hay forma de interpretar adecuadamente los
resultados" (Ravela, 2006a: 71).
4
Bajo este enfoque, los parmetros fundamentales de los instrumentos de investigacin
son los de dificultad (cun cerca o no est el reactivo del dominio o capacidad del
individuo sobre el tema explorado) y de discriminacin (qu capacidad tiene el reactivo
de diferenciar los individuos con mayor dominio o capacidad en el tema, de los de menor
dominio o bajo desarrollo de la capacidad correspondiente). Pero ambas propiedades
caracterizadoras del instrumento dependen mucho aqu de la muestra de individuos
seleccionados; as un mismo instrumento puede resultar fcil para una muestra y difcil
para otra, lo que cuestiona la generalizacin de las conclusiones de la evaluacin
(Muiz, 1990) (Fernndez, 2001) (Tristn, 2001) (Prieto-Delgado,2003) (Cortada de
Kohan, 2004) (Ravela, 2006a).

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
la Calidad de la Educacin del 2005, los resultados de Matemtica en la
Educacin Secundaria Bsica, de la capital, fue favorecida por la muestra de
escuelas seleccionadas, dando la imagen de un incremento de la calidad del
aprendizaje en la asignatura (de casi dos veces!) de la evaluacin del 2004 a la
del 2005; y es que la muestra, an seleccionada a la azar, estuvo constituida
mayoritariamente por municipios con resultados tradicionalmente favorables en
Matemtica. Ese resultado cre una expectativa injustificada entre dirigentes
educacionales, decepcionada con los resultados del 2006 (Torres et al., 2008).

Figura No.1: Efecto engaoso de la TCT en una evaluacin del aprendizaje (2005).
Ahora bien, cmo pudiera evadir el evaluador educativo esa nefasta asociacin
entre los resultados de los instrumentos de investigacin y las caractersticas de
los individuos que lo responden?... Mientras que los resultados se asuman slo a
travs de los puntajes brutos de los respondientes (lo que se conoce en
estadstica como frecuencias absolutas) el problema muy difcilmente tendr
solucin. La clave est en tratar de determinar la probabilidad de cada individuo de
responder el reactivo y no la respuesta de ocasin. Si se Iogra un modelo
apoyado en Ia probabilidad de respuesta ante eI reactivo, entonces se
tendra mayor confianza en que Ios resuItados sern simiIares para sujetos
con un dominio equivaIente en eI tema expIorado, aunque no sean los mismos.
Pero, las evaluaciones educativas difcilmente utilizan los mismos instrumentos de
una edicin a otra (especialmente en el caso de las pruebas de rendimiento
cognitivo), luego el problema de la consistencia de los resultados no depender
slo de las muestras, sino tambin de los instrumentos. De modo que sta es otra
fuente de inconsistencia y, por tanto, de posible incumplimiento del principio de
confiabilidad de los instrumentos de investigacin.
Tambin de ella se tienen ejemplos de efecto paradjico en los procesos de
evaluacin educativa realizados en el pas. Ese es el caso de los resultados que
reiteradamente se han obtenido en las preguntas de produccin de textos, en las
pruebas de Espaol de los Operativos Nacionales, en las que se reportan altos
porcientos de respuestas correctas, an cuando los especialistas las caracterizan
como del tercer nivel de desempeo, el de mayor complejidad (Torres, 2008a).
37.5
43.6
57.0
0
20
40
60
80
2002 2003 2004 2005 2006

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
As las cosas, eI modelo buscado ha de reIacionar no sIo Ia probabilidad de
respuesta y eI dominio de los individuos, sino tambin eI nivel de dificultad
deI reactivo. Esto crea un problema adicional, pues las representaciones de un
modelo matemtico se suele presentar con una grfica asociada slo a dos
variables (y, por tanto, a dos ejes de coordenadas), mientras que aqu se est
hablando ya de tres elementos: probabilidad de respuesta, dominio del individuo y
nivel de dificultad del reactivo.
Est claro que el resultado (en trminos de probabilidad de respuesta) depende de
los otros dos aspectos; luego el eje y (de las ordenadas) debe preservarse para el
primero. Se podrn representar los dos ltimos sobre el mismo eje x (de las
abscisas)?... Este problema (adicional) ha sido ya resuelto satisfactoriamente en la
Docimologa, con la introduccin de una nueva unidad de medida. El destacado
evaluador mexicano A. Tristn describe su significado con una extraordinaria
claridad en su popular texto "Anlisis de Rasch para todos (Tristn, 2001).
El Dr. Tristn explica que, puesto que las frecuencias relativas de xito (p) y de
fracaso (q) son estimadores de la probabilidad de respuesta del individuo ante un
reactivo y el cociente del primero entre el segundo (p/q) es una manera de
expresar la expectativa de xito que se tiene, el dominio de un individuo sobre un
tema abordado por un reactivo puede expresarse como el logaritmo
5
de ese
cociente o momio, como tambin se le conoce; en smbolos: B(p)=ln(p/q). A esa
medida del dominio del individuo se le conoce como lgito
6
.
El anhelado vnculo entre dominio (del individuo) y dificultad (del reactivo) se tiene
a partir de que mientras que el momio p/q es indicativo del dominio como ya se
seal- el momio q/p lo es de la dificultad. Luego no slo puede trabajarse con el
logaritmo de la apuesta o momio referida al xito, sino tambin con el logaritmo del
momio o apuesta referido a las fallas (q/p)
7
. Es decir, eI lgito hace referencia no
sIo aI dominio sino tambin a Ia dificultad, por lo que pueden tratarse ambos
aspectos sobre un mismo eje x, el de los lgitos.
Resumiendo, y tratando de que no se espanten los no matemticos!, el modelo
que se est buscando para asegurar el principio de la confiabilidad de los
instrumentos de evaluacin estar determinado, por un lado, por una variable

5
El logaritmo de un nmero no es un misterio o algo inaccesible; as como se puede
calcular el minuendo del cual se obtuvo una diferencia, conocidos la resta que result y
el sustraendo que "se le quit, se puede tambin en una potencia (b=a
x
) determinar el
exponente x al que tuvo que ser elevada la base (conocida) a para obtener dicha
potencia b; al exponente x buscado a partir de a y b se le denomina logaritmo del
nmero b en base a; por ejemplo, 2 es el logaritmo en base 3 del nmero 9, pues 3
2
=9;
en smbolos: log
3
9=2. Un caso particular de logaritmo, muy utilizado, es aquel donde el
exponente buscado corresponde a la base e=2,7182, llamado logaritmo neperiano; se
denota como In(a)=b. (Campistrous et al, 1990)
6
"Lgito es una traduccin libre de (...) logit, (.) forma abreviada de log odd ratio unit
que se traduce por unidades en logaritmo del momio. (Tristn,2001: 11)
7
Al logaritmo del momio o apuesta referido a las fallas, D(q)=ln(q/p), se le conoce como
calibracin del reactivo. (Tristn,2001: 17)

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
independiente (x) expresada en una nueva unidad de medida, llamada lgito (la
que se refiere, al mismo tiempo, al dominio del individuo y a la dificultad del
reactivo) y, por otro lado, por una variable dependiente (y) consistente en la
probabilidad de respuesta del individuo (de acuerdo con su nivel de dominio del
tema y con el grado de dificultad del reactivo empleado). Una representacin
grfica tpica de ese modelo terico buscado sera:

Figura No.2: Representacin grfica de una funcin tpica de la TRI.
Obsrvese que en el eje x (horizontal) aparecen los lgitos 0, centrados en 0, y en
el eje y (vertical) las probabilidades de respuestas correctas, con un rango entre 0
y 1. La grfica describe eI comportamiento de una funcin deI modelo y se Ie
conoce como Curva Caracterstica del Item (CCI). Ntese en ella que, por
ejemplo, un estudiante con medida en lgitos 0 = 1 tiene una probabilidad p=0,7
de responder correctamente ese reactivo; algo as como un 70% de posibilidades
de xito. En cambio, un estudiante con medida 0 = -3 lgitos tiene muy pocas
posibilidades de responder correctamente el reactivo; todo lo contrario a otro con
medida 0 = +3 lgitos, cuya probabilidad de xito en el reactivo es casi p=1.
8

Es de suponer que el nivel de dificultad del reactivo se encuentre determinado por
la zona central de la grfica del modelo, donde la probabilidad de xito crece
abruptamente. De hecho, se puede demostrar matemticamente que en el caso
del modelo ms extendido, aquel que reconoce slo a ese parmetro o propiedad
caracterizadora esencial de la funcin, el nivel de dificultad b est determinado
(sobre el eje x) por la probabilidad p=0,5. De modo que, "Si la competencia del
sujeto es mayor que la requerida por el tem (...) la probabilidad de respuesta
correcta ser mayor que la de una respuesta incorrecta. Por el contrario, si la
competencia del sujeto es menor que la requerida por el tem (.), la probabilidad
de una respuesta correcta ser menor que la de una respuesta incorrecta (Prieto-
Delgado, 2003: 1). Luego, "(.) lo importante no es la calibracin por s misma o la
medida por s misma, sino la diferencia entre ellas (Tristn, 2001: 92).

8
No olvide el lector que la probabilidad de un suceso, en tanto cociente de casos
favorables entre casos posibles, es siempre un valor entre 0 y 1.

o oo o o oo o

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
Existen diferentes modelos con estas caractersticas: el de Rasch
9
, los logsticos
de dos
10
y tres parmetros
11
, el de la curva cbica
12
, la ojiva normal
13
, etc.
(Muiz, 1990) (Tristn, 2001) (Cortada de Kohan, 2004). Los ms utilizados son
los de naturaleza logstica, fundamentalmente por la comodidad de sus clculos.

9
Desarrollado por el dans G. Rasch en 1960 e impulsado por la Universidad de Chicago,
con B. D. Wright y M. H. Stone al frente. gualando ln(p/q) con la diferencia del dominio
0 y la dificultad b, Rasch dedujo la frmula del modelo: p(0)=e
(0-b)
/[1+ e
(0-b)
]. Se
constituye en una curva terica contra la que hay que contrastar la curva emprica y
tiene la ventaja adicional de que puede utilizarse en muestras pequeas.
10
Elaborado por el norteamericano F. M. Lord hacia finales de los 60, aunque tambin se
le atribuye a su connacional A. Birnbaum, desde una dcada antes. Mientras que el
modelo de Rasch reconoce un nico parmetro de la CC (el ndice de dificultad b), los
defensores de este otro modelo logstico aaden un segundo parmetro de la CCI,
denominado ndice de discriminacin, el que est asociado a la pendiente de la CCI
en el punto b. La frmula de la funcin del modelo es: p(0)=e
Da(0-b)
/[1+ e
Da(0-b)
], donde 0
sigue siendo el dominio y b la dificultad, a es el ndice de discriminacin ya referido y D
es una constante (D=1,7) que ha propiciado un ajuste adecuado de la curva logstica a
su antecesora ojiva normal. Es tambin un modelo de contraste y requiere muestras
superiores a 300 individuos.
11
mpulsado por F. M. Lord y el Educational Testing Service (ETS). ncorpora un tercer
parmetro c, relativo a la probabilidad de adivinar la respuesta del tem, por lo que se le
denomina parmetro del seudo azar. Su frmula es: p(0)=c+(1-c){e
Da(0-b)
/[1+ e
Da(0-b)
]}.
Tiene la limitacin de que no es un modelo de contraste, sino un modelo de ajuste; de
hecho puede generar situaciones paradjicas, cuando la CCI sugiere que el reactivo es
difcil para estudiantes de mayor dominio y, a la vez, fcil para sujetos de bajo dominio.
Requiere muestras grandes para su aplicacin.
12
Utilizando la Serie de Taylor se puede probar que si se toma x=2p-1, entonces:
ln(p/q)=2x+2x
3
/3, con un pequeo error. La cbica se utiliza como modelo de ajuste.
1S
Asumen que la CCI viene determinada por la curva normal acumulada, la que bien
podra considerarse la "curva caracterstica en la TCT (individuos con un dominio o muy
bajo o muy alto hacia las colas y la inmensa mayora de los individuos con un dominio
medio, hacia el centro de la "campana); quizs esa sea la razn por la que precede a
los modelos logsticos. Fue desarrollado en los aos 40 por D. N. Lawley y L. R. Tucker,
as como por el propio F. M. Lord a inicios de los 50, antes de inclinarse por los modelos
logsticos; los hay de uno, dos, tres y cuatro parmetros; para el primero la frmula es:

La Teora de Respuesta al Item (TRI) es aquella que aglutina a
los modelos que relacionan, al menos, la probabilidad de
respuesta de un individuo a un estmulo con la diferencia de la
medida de su dominio y la medida de dificultad del reactivo.

y yy y y yy y

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
En (Tristn, 2001) se ofrecen recursos prcticos para el trabajo intuitivo con
algunos de estos modelos a travs del accesible Excel, sin el empleo de un
software especializado. Los asistentes al V Seminario-Taller de Jefes de Grupos
Provinciales de Evaluacin de la Calidad de la Educacin recordarn que,
siguiendo a ese autor, se present el procedimiento para construir en Excel
grficas aproximadas de CCI, con el ajuste de funciones cbicas (CCP, 2008: 20).

Figura No.3: Obtencin aproximada de una CC con ayuda de Excel.
Ahora bien, una pregunta clave para poder comprender cabalmente el papel de los
modelos de la TRI es si para cualquier instrumento de evaluacin (en tanto
conjunto de reactivos) est garantizada la validez del modelo, y con ella las
grandes bondades de esta teora. La respuesta es no, o sea Ia teora no se
cumpIe automticamente para cuaIquier reactivo.
Por una parte, es necesario que est garantizada Ia unidimensionalidad deI
mismo; es decir, que el tem mida un slo conocimiento, aptitud o rasgo latente.
Por otra parte, debe estar asegurada Ia independencia de Ios tems; esto
quiere decir que para cualquier par de reactivos del instrumento, la respuesta a
uno de ellos no dependa de la respuesta al otro (Cortada de Kohan, 2004). Y al
final de todo, debe reaIizarse Ia verificacin deI ajuste de Ios datos
experimentaIes a una de Ias curvas tericas de Ia TRI, lo cual "(.) requiere de
un clculo de parmetros y del valor de error de ajuste [FIT]" (Tristn, 2001: 78).
Es bueno aclarar que, no debe verse Ia TRI como una negacin absoIuta de Ia
TCT. "Es usual que los evaluadores contrapongan el Anlisis de Rasch
14
al (.)
Modelo Clsico (grado de dificultad, poder de discriminacin, anlisis de
distractores). Considero que es un error tomar un partido extremista. Puede
obtenerse mucho provecho con los aspectos positivos que tiene cada uno de los
modelos (.) Ms bien deberamos verlos como modelos complementarios.
(Tristn, 2001: 127). Un ejemplo de esa posicin equilibrada, y de sus beneficios,
se puede apreciar en la propuesta de (Fernndez, 2001).

14
En representacin de todos los modelos de la TRI, se asume en este Boletn.

s ss s s ss s

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
Para qu sirve la Teora de Respuesta al Item?
Varios autores, ms prximos a la Docimologa, prefieren destacar de la TRI sus
posibilidades de contribucin a Ia calibracin de Ios reactivos (Valds, 2007) y,
en consecuencia, a Ia creacin de bancos de tems para una utiIizacin
seIectiva de Ios mismos (Fernndez, 2001) (Cortada de Kohan, 2004). Este
autor confiesa que se demor en prestarle atencin a esta novedosa teora por
esa razn, an cuando ciertamente- el perfeccionamiento de los instrumentos de
evaluacin es un deber elemental de un evaluador educativo.
Esa posicin no se modific sino hasta que descubri, con los trabajos del
prestigioso evaluador educativo uruguayo P. Ravela sobre todo, que con eI
robustecimiento deI principio de confiabilidad Ia TRI propicia un aspecto de
mayor trascendencia para Ia Evaluacin Educativa, que es eI de Ia
comparacin efectiva de Ios resuItados, no tanto entre los individuos como
entre eI estado real y eI estado ideal deI objeto de evaluacin.
Esa fue la razn que llev a este autor a realizar, en ocasin del evento nacional
CALIDED 2008, la siguiente aseveracin: "(.) una de las grandes ventajas de la
TRI es el permitir estimar las capacidades de los estudiantes con independencia
de la versin de prueba que se aplique o de muestra seleccionada para el pilotaje
(.). En consecuencia, los estudiantes no tienen que realizar una misma prueba,
como sucede en el caso de los abarcadores Bloques Incompletos Balanceados
(BIB)
15
. Es suficiente con que dos temarios tengan un conjunto de tems comunes
(tems de anclaje) para que las puntuaciones de la segunda evaluacin puedan
ser comparadas con los de la primera, pues utilizaran una misma escala para los
valores de 0 (Ravela, 2006a: 132).
"No debe perderse de vista cuntas abstracciones se hacen, por tanto, cuando se
realizan comparaciones entre resultados de pruebas de rendimiento cognitivo de
Operativos Nacionales o de comprobaciones de conocimientos de formas o
perodos diferentes, en trminos de Por cientos de Respuestas Correctas, medida
tpica de la teora Clsica del Test, por la que an se rigen las mediciones
cognitivas en el pas. (Torres, 2008a: 9).
P. Ravela acostumbra a referir -con justicia- los avances del Sistema de Avaliao
da Educao Bsica (SAEB), de Brasil
16
, en lo relativo a la utilizacin de la TRI en
funcin de la mejora escolar, como un ejemplo del alcance de esa estrategia. Por
su importancia y accesibilidad se reproducir aqu, a continuacin.
"Los puntajes de TRI no tienen una mtrica especfica. Normalmente se toma
arbitrariamente una media de 250 puntos y desviacin estndar de 50, o una

15
Ntese que con los BIB se eleva la validez (.) pues se abarcan ms objetivos
especficos (generalmente 90, en vez de los 15 de las Formas Paralelas); por tanto, se
tiene en este tipo de prueba de rendimiento una mejor representatividad del programa
curricular sobre cuyo dominio se pretende formular juicios de valor.
16
Brasil es reconocido como el primer pas latinoamericano que introdujo la TRI en su
Sistema Nacional de Evaluacin Educativa, hace alrededor de 13 aos (1997).

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
media de 500 puntos y desviacin estndar de 100 (.)
17
a partir de los supuestos
de la TRI es posible construir una nica escala de puntajes para poblaciones
pertenecientes a diferentes niveles de escolaridad; en el caso de Brasil, 4 y 8 de
educacin Bsica y 3 de Educacin Media. Ello permite comparar las medias de
proficiencia en cada disciplina entre los diferentes niveles del sistema educativo
(.) uno de los problemas que plantea el uso de la TRI es la dificultad para
comunicar al pblico y a los docentes cmo se llega a la determinacin de los
puntajes y qu es lo que estos significan. Difcilmente tendr significado para el
lector no especializado, mientras no exista una tradicin o cultura en torno a
su interpretacin
18
. Un modo de enfrentar esta dificultad (.) es realizar una clara
descripcin de lo que son capaces de hacer los alumnos, que se encuentran en
ciertos puntos de la escala de puntajes. En el caso del SAEB, se establecen
puntos de corte cada 75 puntos, se explica qu son capaces de hacer los alumnos
en cada uno de esos niveles (.) al tiempo que se reporta el porcentaje de
alumnos que alcanza o supera ese nivel (.) (Ravela, 2006b: 205-206).

Figura No.4: Ejemplo de utilizacin de la TRI en funcin de la mejora escolar.

17
Justamente esa fue el escalonamiento que se utiliz en el SERCE (OREALC/UNESCO,
2009). En realidad, lo novedoso de la TRI no est en esa forma de presentar los
resultados; una escala similar puede ser construida con los resultados de los
instrumentos procesados con la TCT.
18
El subrayado es del autor de este Nmero del BoIetn.

x xx x x xx xo oo o o oo o

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
P. Ravela va ms all, en el loable propsito de la utilizacin eficaz de los
resultados de la evaluacin educativa con vistas al mejoramiento de la calidad de
los Sistemas Nacionales de Educacin, y contina explicando:
"En los estudios internacionales, este modo de reportar es empleado de manera
estrictamente descriptiva; es decir, se describe lo que los alumnos son capaces de
hacer en cada tramo de la escala, pero no se responde a la pregunta: es eso lo
que deberan saber, es ms o es menos? (.) El SAEB ha enfrentado este desafo
de la siguiente manera: a partir de los resultados descriptivos de lo que son
capaces de hacer los alumnos que se encuentran en diferentes puntos de la
escala, grupos de especialistas definen en qu momento de la escolaridad los
alumnos deberan haber alcanzado cada uno de estos niveles, con lo cual se
establece un criterio de valoracin contra el cual es posible responder las
preguntas especificadas en el prrafo anterior (.). (Ravela, 2006b: 207-208).

Figura No.5: Ejemplo de utilizacin de la TRI para mejorar la funcin valorativa.
Se imagina el lector cunto se puede incrementar la contribucin de los estudios
evaluativos nacionales con un trabajo de ese tipo?... Poder decir, primero, qu
por ciento de estudiantes asimilaron en el 4 grado de la educacin primaria,
donde debieron aprenderlo, cmo dividir dos nmeros con ceros en el cociente
(Rizo et al, 1991: 119), o el contenido, estructura y significado de La Edad de Oro
(Contreras et al, 1991: 123-133), o la naturaleza y la poblacin y sus principales
actividades en Cuba (Santos et al, 1991: 100-131), para despus poder decir qu
por ciento, seguramente mayor, lo logra al concluir la educacin primaria, en 6
grado, o la educacin secundaria bsica, en 9 grado!... ncluso, qu porcentaje
sali del sistema nacional sin dominar esos contenidos bsicos? Recursos
metodolgicos hay ya en el pas para hacerlo (Torres, 2008a) (Torres, 2009).

x xx x x xx xx xx x x xx x

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
Es bueno recordar que otro medio frecuentemente utilizado en la evaluacin
educativa para buscar una mayor implicacin en la mejora educativa es la
descripcin de las proporciones de estudiantes evaluados que logran alcanzar
diferentes niveles de desempeo, ordenados ascendentemente por grados de
complejidad. Tambin en el pas se ha hecho un notable esfuerzo por emplearlo,
an desde la TCT (Puig, 2009).
No obstante, ya se seal el efecto paradjico que ha provocado, al menos, en
preguntas de Espaol, supuestamente del tercer nivel de desempeo. Lo cierto es
que el criterio emprico de que un estudiante asciende de nivel si es capaz de
responder un por ciento de preguntas certificadas, por especialistas en el currculo
escolar, como de ese grado de complejidad (adems de haber asegurado el nivel
de desempeo anterior), termina siendo dbil en comparacin con las
posibilidades de mayor precisin que se logra con la TRI, como se explica en la
Ficha 9 de (Ravela, 2006b: 147-165) o en (OREALC/UNESCO: 2009: 445-450).
Finalmente, es importante destacar que Ia utiIizacin de Ia TRI ha trascendido
Ias pruebas de rendimiento cognitivo para extenderse al procesamiento de
resultados de otros instrumentos de evaluacin educativa, referidos al rendimiento
no cognitivo y a factores asociados a ellos. Se agradece pblicamente, por cierto,
la contribucin del destacado evaluador educativo colombiano D. Bogoya en ese
sentido. Un ejemplo de las posibilidades y ventajas de la utilizacin del modelo de
Rasch en el escalonamiento de una variable de rendimiento no cognitivo, como
la habilidad afectiva, puede encontrarse en (Bogoya et al, 2007: 48).
Cmo se utiliza la Teora de Respuesta al Item?
En (Muiz, 1990:39) se ofrece un procedimiento de siete pasos para el trabajo
con uno de los modelos de la TRI; los tres primeros son comunes a la TCT
(definicin rigurosa de la variable, elaboracin de los tems y aplicacin de los
tems a una muestra adicional de sujetos, a manera de pilotaje). Se explicarn en
detalles, entonces, los cuatro Itimos.
Comprobacin de Ia unidimensionalidad de Ios tems.
Al decir de (Muiz, 1990), el anlisis factorial parece ser la tcnica ms
apropiada. Puesto que el conjunto de reactivos que conforman un mismo
instrumento pretende medir una misma dimensin (habilidad matemtica, lectora,
afectiva, etc.) es de esperar que resulte, al procesar la matriz de datos
(conformada en las columnas por los tems y en las filas por los respondientes), un
nico factor que explique la mayor parte de la varianza. Los tems que queden
representados por factores con bajos niveles de varianza explicada deben ser
descartados. Este proceso se hace con ayuda de un software apropiado, como
SPSS o Statistica; el usuario slo tiene que completar la tabla de datos original.
Un ejemplo de utilizacin de esa tcnica estadstica, en procesos de evaluacin
educativa en el pas, puede encontrarse en (Torres-Galds, 2007), al igual que en
la tesis doctorales de R. Lorenzo, . Companioni, S. A. Galds y F. Marrero.

x xx x x xx xz zz z z zz z

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <

Figura No.6: Ejemplo de utilizacin de la tcnica de anlisis factorial.
EIegir uno de Ios modeIos de TRI.
Se ha sealado que existen diferentes modelos agrupados bajo la TRI (Rasch, los
logsticos de dos y tres parmetros, la curva cbica, la ojiva normal, etc.), con
preferencia por los de naturaleza logstica (Muiz, 1990) (Tristn, 2001) (Cortada
de Kohan, 2004). El modelo ms popular entre todos ellos es el Rasch (Tristn,
2001) (OREALC/UNESCO, 2009), en parte por ser un modelo de contraste y no
de ajuste, en parte por no producir situaciones paradjicas como la descrita
anteriormente para el modelo logstico de tres parmetros
19
.
Estimacin de Ios parmetros de Ios tems y de Ia medida de Ios sujetos.
Se trata de un proceso iterativo (por aproximaciones sucesivas) y de clculos
laboriosos (Muiz, 1990), por lo que se realiza con la asistencia de un software
especializado; como resultado de la participacin de Cuba en los estudios
evaluativos del LLECE se dispone en el pas del software Winsteps. En el caso
de que se haya seleccionado el modelo de Rasch, en el paso anterior, se estara
hablando entonces aqu de b, para cada uno de los tems, y de 0, para cada uno
de los respondientes.
Sin embargo, en procesos evaluativos que demanden de un elevado rigor tcnico
y, en consecuencia, de un marcado control de calidad (como el SERCE) se suelen
aadir otros indicadores estadsticos y psicomtricos, algunos individuales, como la
discriminacin
20
y la correlacin punto-medida
21
, y otros grupales, como el

19
En el SERCE se manejaron dos criterios tcnicos ms para sustentar la eleccin del
modelo de Rasch (OREALC/UNESCO, 2009: 433).
2u
La discriminacin es el "poder de un tem para diferenciar a los estudiantes evaluados
en distintos niveles de habilidad frente a un constructo medido (OREALC/UNESCO,
2009: 438). Winsteps devuelve ese valor, aunque se conoce que el modelo de Rasch
reconoce slo el parmetro de dificultad.
21
La correlacin punto-medida es la relacin entre la respuesta correcta a un tem de una
prueba y el valor de habilidad obtenido en dicha prueba (OREALC/UNESCO, 2009: 438).

x xx x x xx x

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
promedio
22
, la desviacin estndar
23
, las puntuaciones mximas y mnimas
24
y
la funcin de informacin
25
. En el Reporte Tcnico del SERCE, disponible en el
sitio ftp del Programa Ramal (http://iccpftp.rimed.cu/calidad), se explica la
justificacin del empleo y la interpretacin de cada uno de estos indicadores
(OREALC/UNESCO, 2009: 438-445).
Un reporte de mucha utilidad que genera el software es la construccin de mapas
de distribucin de habilidades y dificultades, en los que simultanean
informaciones relativas a 0 (dominio o habilidad) con b (dificultad).

Figura No.7: Ejemplo de mapa de distribucin de habilidades y dificultades.
(OREALC/UNESCO, 2009: 442-443)
Como bien se explica en (OREALC/UNESCO, 2009: 441): "Esta grfica permite
contrastar la dificultad de los tems en una poblacin particular y determinar si
stos se ajustan a la poblacin (.) As, pueden ser contrastadas las expectativas
de los constructores de tems, en relacin con el nivel de dificultad de los tems y
observar si la muestra seleccionada se comporta de acuerdo con los propsitos
del diseo muestral (.) Si la distribucin de habilidades tiene valores inferiores a
la distribucin de dificultades, quiere decir que para ese grupo poblacional los

22
El promedio es la media aritmtica de las dificultades de los tems del bloque y de las
habilidades de las personas que abordan cada bloque (OREALC/UNESCO, 2009: 441).
23
La desviacin estndar es la medida de la dispersin de la distribucin de las
dificultades de los tems de un bloque y de la distribucin de las habilidades de las
personas que abordan dicho bloque (OREALC/UNESCO, 2009: 442).
24
Las puntuaciones mximas y mnimas se refieren a las puntuaciones logit ms alta y
ms baja alcanzadas por una poblacin particular (OREALC/UNESCO, 2009: 442).
25
La funcin de informacin puede ser vista como una expresin matemtica de la
precisin de la medida en cada nivel del objeto evaluado; indica el grado de precisin en
la edicin. Esta funcin corresponde a la informacin estadstica de cada tem, basada
en el modelo de Fisher (OREALC/UNESCO, 2009: 442).

x xx x x xx x

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
tems resultaron ms difciles de lo esperado". Ese justamente es el caso de la
representacin de la Figura No.7, donde la distribucin de las habilidades (arriba)
se encuentra desplazada ms a la izquierda que la distribucin de dificultades
(debajo). Ntese la semejanza de estas distribuciones con la curva normal.
Cuando el proceso evaluativo a desarrollar no es tan comprometedor como un
estudio internacional -por ejemplo, en auto-evaluaciones institucionales o
diagnsticos del aprendizaje por el propio docente- entonces se puede realizar
este paso de un modo ms elemental. Para ello se puede acudir a la construccin
aproximada de las CCI, en el sentido en que propone (Tristn, 2001), bien
determinando los parmetros como propone l ah, o incluso observando las
caractersticas de las curvas y realizando, sobre la base de ello, inferencias
intuitivas acerca de los parmetros, como se explicar en el apartado siguiente.
Comprobacin deI ajuste entre eI modeIo y Ios datos.
De lo que se trata es de verificar si los valores de las probabilidades de respuestas
pronosticados por el modelo terico no difieren significativamente
26
de los
obtenidos empricamente. Tanto (Muiz, 1990), como (Valds, 2007) siguiendo al
primero, sugieren tres tcnicas factibles de utilizar: el empleo de la distribucin
y
2
, el anlisis de los residuos y la comparacin de las distribuciones de las
puntuaciones. En la actualidad, el foco parece haberse ubicado en el segundo
recurso, con la asistencia de los ordenadores (Prieto-Delgado, 2003) (Tristn,
2001) (OREALC/UNESCO, 2009).
En el SERCE, con la ayuda del Winsteps, se consideraron tres indicadores de ese
tipo: el ajuste prximo (infit)
27
, el ajuste lejano (outfit)
28
y el funcionamiento
diferencial (DIF)
29
, tomados en ese orden durante el anlisis de los tems. Ellos
constituyeron un criterio -denominado Categora I- que permiti tomar decisiones
acerca de la aceptacin o rechazo del reactivo, an despus de su participacin
en la aplicacin definitiva de las pruebas de rendimiento del estudio. Ms
claramente, como se explic en el Reporte Tcnico: "Se eliminarn los registros de
aquellos estudiantes evaluados cuyo valor de ajuste prximo o lejano sea inferior a
0.7 o superior a 1.373. Una vez hecha esta depuracin se procesa de nuevo la
informacin para proceder a aplicar los criterios de depuracin por anlisis de
tems, propiamente dichos." (OREALC/UNESCO, 2009: 443).

26
El trmino estadstico "significativamente no debe inducir al lector a la idea de grandes
diferencias entre los elementos comparados, el significado correcto es que estas estn
aseguradas (con una alta probabilidad), ms all de la muestra en que fue observada; o
como seala (Ravela, 2006b: 145): "(.) estadsticamente significativo implica que hay
diferencias reales, pero no necesariamente que estas sean sustantivas y relevantes.
27
El ajuste prximo (infit) se refiere a la relacin entre los datos que se encuentran cerca
del valor de dificultad del tem y el valor de dificultad (OREALC/UNESCO, 2009: 436).
28
El ajuste lejano (outfit) se refiere a la relacin de los datos que se encuentran lejos de
dicho valor de dificultad y esa dificultad (OREALC/UNESCO, 2009: 436).
29
El DIF es el grado en el cual un tem presenta propiedades estadsticas diferentes en
distintos grupos (OREALC/UNESCO, 2009: 437).

x xx x x xx x

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <

Figura No.8: Parmetro e ndices utilizados en el SERCE y sus criterios de aceptacin.
En la figura siguiente se muestra el reporte que genera el software para tems
independientes, lo que permite verificar si el reactivo cumple con los ndices
establecidos. La informacin incluye no slo la respuesta correcta sino todas las
opciones, de modo que se pueda verificar tambin la exigencia planteada al
promedio de la habilidad.

Figura No.9: Devolucin del software Winsteps. (OREALC/UNESCO, 2009: 435)
Como en el caso del paso anterior, se explicar en la prxima seccin cmo
proceder con la primera tcnica anunciada, cuando no se dispone del software o
se desea hacer estudios ms elementales, como una auto-evaluacin institucional
o diagnsticos del aprendizaje a instancia de escuelas.

x xx x x xx xo oo o o oo o

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
Quines trabajaran la Teora de Respuesta al Item?
No se pretende establecer desde posiciones individuales- pautas para la eleccin
de un referente u otro en la lnea de investigacin del Programa Ramal.
Justamente por ello, se ha impulsado un Proyecto de Investigacin Asociado de
carcter inter-institucional, actualmente en marcha- que habr de arribar a
conclusiones cientficas acerca de qu marco terico-metodolgico y qu tcnicas
especficas debieran utilizarse en los procesos de evaluacin educativa en el pas,
en el marco del SECE, e incluso cmo difundirlos, a manera de desarrollo de una
cultura evaluativa (Torres et al, 2009). En su lugar, se harn aqu slo
recomendaciones generales, pensando ms que todo en los evaluadores
educativos cubanos que, an con mucho deseo de hacer cosas, no disponen del
acceso a la tecnologa requerida o los tiempos necesarios para trabajar en ello.
Es deseable que los investigadores de Ios Proyectos de Investigacin
Asociados al Programa Ramal No.10 y, en especial, los miembros de Ios
Grupos Provinciales de Calidad, se esfuercen por hacer un uso a fondo de la
TRI en sus estudios evaluativos de alcance nacional y territorial. Para ello se
dispone como ya seal- del acceso al Winsteps y a una bibliografa mnima, en
soporte digital
30
, disponible en: http://iccpftp.rimed.cu/calidad. No se trata de
hacerlo maana mismo, ni de renunciar al manejo cmodo de los resultados
obtenidos bajo el prisma de la TCT como tambin ya se explic- sino de
comenzar a avanzar por este imprescindible camino de la elevacin del rigor
metodolgico de la interpretacin de los resultados y la genuina generalizacin, de
cara a la mejora.
Ahora bien, si se trata de docentes y directores de escueIas interesados en
desarrollar un proceso de auto-evaluacin institucional o profundizar en el
diagnstico pedaggico de sus estudiantes empleando la TRI- entonces pueden
generarse anlisis ms elementales y accesibles, con la ayuda de Excel,
disponible en todas las computadoras personales del centro.
Siguiendo a (Tristn, 2001: 50-54) se explicar la determinacin de Ios
parmetros de una CCI. Despus de construida la representacin grfica
aproximada de la CCI asociada a los resultados de la aplicacin de un instrumento
de evaluacin, presentados en forma dicotmica (1 0)
32
, tal y como se explica en
(Len et al, 2008), se sigue el siguiente procedimiento:

30
Para facilitar su identificacin, en la Bibliografa de esta primera parte del presente
Nmero del Boletn se ha incorporado, al lado de cada obra disponible en soporte digital,
el hipervnculo con el sitio del Programa Ramal en el ftp del CCP.
32
Aunque no se cumple siempre a la inversa, una escala de evaluacin puede ser
transformada siempre en una escala dicotmica, en trminos de 1 (xito o aprobado)
0 (fracaso o desaprobado). El lector no debera sentir aversin por las escalas
dicotmicas; de hecho la alternancia entre 0 y 1 lo acompaa en la vida cotidiana ms
de lo que cree; ella sirve de fundamento al trabajo del ordenador, las llamadas con el
celular, un ultrasonido clnico o las imgenes del parte meteorolgico por satlite, entre
otros ejemplos.

x xx x x xx xy yy y y yy y

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
1. Estimacin del parmetro c de seudo azar.
Para ello debe realizar una lectura sobre el eje y (probabilidades) por el punto
por donde la CCI lo corta en valores de 0 muy pequeos (menores que -3 o -4
lgitos). En el caso de la Figura No.10, abajo representada, c=0.

Figura No.10: Ejemplo de estimacin de parmetros de una CCI desde Excel.
2. Determinacin del punto de inflexin de la CCI.
Ese importante punto se ubica en p=(c+1)/2. En el ejemplo que se sigue, de
la Figura No.10, como c=0, entonces p=0,5.
3. Estimacin del parmetro b, de dificultad.
Puesto que b es la medida sobre el eje x correspondiente al punto de
inflexin, se traza una paralela desde ste ltimo hasta la curva y desde ah
una perpendicular hasta el eje x. En el ejemplo, para p=0,5 se tiene b=0,7.
4. Estimacin del parmetro a, de discriminacin.
El valor de a est asociado a la pendiente de la recta tangente a la CCI en
su punto de inflexin. Es posible identificar un tringulo rectngulo, cuya
hipotenusa es el segmento de recta tangente que se extiende desde el
punto de inflexin al punto donde dicha recta corta al eje x (en la Figura
No.10, los catetos de dicho tringulo miden, entonces, 0,5 y 2,4 unidades,
respectivamente). Del preuniversitario se sabe que la pendiente coincide
con la tangente del ngulo agudo d, que a su vez resulta del cociente de la
longitud del cateto opuesto entre la del cateto adyacente; en el ejemplo:
tand=0,5/2,4=0,2083. Finalmente, se utiliza la frmula siguiente:

De modo que a = 0,2083
.
2,5
/
(1-0)= 0,52.
Finalmente en este punto, (Tristn, 2001) destaca adems que, de superponerse
las CCI de varios tems de un mismo temario (o agrupados por otra razn de
inters), un educador no especializado puede tambin hacer anlisis tiles sobre
las propiedades de los reactivos representados. Vase el siguiente ejemplo:

x xx x x xx xs ss s s ss s

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <

Figura No.11: Ejemplo de comparacin de propiedades de CCI desde Excel.
A simple vista puede inferirse que la curva 2 representa a un reactivo de mayor
capacidad de discriminacin que el correspondiente a la curva 1, pues la
pendiente de la recta tangente a la curva 2, en el punto de inflexin comn a
ambas curvas, es claramente mayor que la de la curva 1; es decir, separa ms
abruptamente los valores de las probabilidades de respuesta de los respondientes
hacia el centro de la escala de la medida de la habilidad medida.
Por ltimo, en cuanto a no disponer de un software especializado para decidir
acerca del ajuste de la curva emprica al modelo terico de CCI, (Muiz, 1990: 50-
52) desarrolla un ejemplo de utilizacin de la distribucin y
2
, tambin modelable en
Excel. J. Muiz explica que, una vez determinados los parmetros del modelo
logstico seleccionado (pudiera ser como se explic con anterioridad), entonces
puede agruparse a los sujetos evaluados en varias categoras de la medida de la
habilidad (0) y formar a partir de ellas dos distribuciones de frecuencias, la de los
valores de las probabilidades empricamente obtenidas y los que se lograran
tericamente con el modelo (como se aprecian en las tablas de las Figuras No.12
y No.13, respectivamente).

Figura No.12: Proporcin p
e
(0j) de sujetos que superan el tem para cada categora de 0.

x xx x x xx x

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <

Figura No.13: Valores p (0j) de la CCI, dada por la frmula, para cada categora j de 0.
Entonces, utilizando el estadgrafo construido por B. Wright y N. Panchapakesan:

Se tiene que y
2
= 4,70+ 3,57+ 1,10+ 2,83= 12,2. Puesto que en la tabla, y
2
0,99
con
k-1 = 5-1 = 4 grados de libertad alcanza el valor de 13,28 y ste es mayor que el
valor del estadgrafo calculado (12,2), no se puede rechazar la hiptesis nula y se
acepta que existe ajuste entre el modelo y los datos.
A quines van dirigidos
los resultados de la Teora
de Respuesta al Item?
De los apartados anteriores podr
inferirse que tericamente- los
reportes de evaluaciones educativas
soportadas por TRI pueden ser
extensibles a todos las audiencias
previstas en el SECE (Torres et al,
2008). Se trata de acompaar los
juicios valorativos emitidos de un
mnimo de explicacin plausible sobre
el significado de las escalas
generadas y, ms a largo plazo, de
desarrollar la imprescindible cultura
de la evaluacin educativa.
Cmo se introducen sus resultados?
La respuesta ya fue dada, en lo esencial, cuando se explic la importancia de la
TRI. Un esfuerzo tan grande como el que demanda ese enfoque slo se justifica si
se devuelven a los docentes y directivos comparaciones entre niveles del Sistema
Educativo y entre perodos diferentes, especialmente en contraste con los
objetivos curriculares prescritos, como se muestra en las Figuras No.4 y No.5 de
esta parte del presente Nmero del Boletn (Torres, 2008a) (Torres, 2009).
L La a 1 1R Rl l e es s u un n e en nf fu uq qu ue e
m me et tu ud du ul l g gi ic cu u q qu ue e s se e a a u uy ya a
e en n m mu ud de el lu us s q qu ue e a as su uc ci ia an n l la a
r ru ub ba ab bi il li id da ad d d de e r re es s u ue es st ta a
d de e l lu us s i in nd di iv vi id du uu us s c cu un n l la a
m me ed di id da a d de e s su us s h ha ab bi il li id da ad de es s
e en n e el l t te em ma a e ev va al lu ua ad du u. . 4 4l l
r ru ub bu us st te ec ce er r e el l r ri in nc ci i i iu u d de e
c cu un nf fi ia ab bi il li id da ad d d de e l lu us s
i in ns st tr ru um me en nt tu us s d de e
e ev va al lu ua ac ci i n n, , l la a 1 1R Rl l r ru u i ic ci ia a
u un na a c cu um m a ar ra ac ci i n n e ef fe ec ct ti iv va a
d de e l lu us s r re es su ul lt ta ad du us s. .

z zz z z zz zo oo o o oo o

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
B Bi ib bI Ii io og gr ra af f a a: :
1. Baker, F. B. (2001) The Basics of Item Response Theory University of Wisconsin.
ERC. Washington. (http://iccpftp.rimed.cu/calidad)
2. Bogoya, D. et al. (2007) Hacia un sistema integral de evaluacin de la calidad de la
educacin en Bogot. Serie Cuadernos de Evaluacin. Universidad Nacional de
Colombia, Santa Fe de Bogot.
3. Campistrous, L. et al. (1990) Matemtica. Onceno grado. Editorial Pueblo y
Educacin, La Habana.
4. Contreras, M. et al. (1991) Lectura. Cuarto grado. Editorial Pueblo y Educacin. La
Habana.
5. Cortada de Kohan, N. (2004) Teora de Respuesta al tem: supuestos bsicos. En:
Evaluar No.4 (septiembre, 2004). Facultad de Psicologa. Universidad de Crdoba
(Argentina)
6. Fernndez, R. (2001) Evaluacin de la competencia matemtica al final de la
educacin primaria combinando Teora Clsica de Respuesta al Test y Teora de
Respuesta al tem. EOEP General del Naln. Asturias.
(http://iccpftp.rimed.cu/calidad)
7. Hernndez-Sampieri, R. et al. (1998) Metodologa de la investigacin. McGraw Hill,
Ciudad de Mxico.
8. Len, T. et al. (2008) Aportes metodolgicos del SERCE. En: V Seminario-Taller de
Jefes de Grupos Provinciales de Evaluacin de la Calidad de la Educacin. CCP,
La Habana (Material docente) (http://iccpftp.rimed.cu/calidad)
9. Linacre, J. M. (2006) Gua del Usuario de Winsteps. Winsteps.com, Chicago.
10. Martnez Rizo, F. (2009). Evaluacin formativa en aula y evaluacin a gran escala:
hacia un sistema ms equilibrado. Revista Electrnica de nvestigacin Educativa,
11 (2). En: http://redie.uabc.mx/vol11no2/contenido-mtzrizo2.html
11. Muiz, J. (1990) Teora de Respuesta a los tems. Un nuevo enfoque en la evolucin
psicolgica y educativa. Ediciones Pirmide, S.A., Madrid.
12. Murillo, J. et al. (2007) Investigacin Iberoamericana sobre Eficacia Escolar.
Convenio Andrs Bello (CAB), Bogot. (http://iccpftp.rimed.cu/calidad)
13. OREALC/UNESCO (2001) Primer Estudio Internacional Comparativo sobre
Lenguaje, Matemtica y factores asociados, para alumnos del 3er. y 4to. grado de
la Educacin Bsica. Informe Tcnico. UNESCO, Santiago de Chile.
14. ________________ (2008) Los aprendizajes de los estudiantes de Amrica Latina y
el Caribe. Primer reporte de los resultados del Segundo Estudio Regional
Comparativo y Explicativo. Salesianos mpresores, SA; Santiago de Chile.
15. ________________ (2009) Reporte Tcnico. Segundo Estudio Regional
Comparativo y Explicativo. Los aprendizajes de los estudiantes de Amrica Latina
y el Caribe. CD-ROM (SBN: 978-956-322-008-7). (http://iccpftp.rimed.cu/calidad)
16. Prieto, G. y A. R. Delgado (2003) Anlisis de un test mediante el modelo de Rasch.
En: Psicothema 2003, Vo.15 No.1. Universidad de Salamanca, pp.94-100
(http://www.psicothema.com)
17. Puig, S. (2009) Propuesta para evaluar el desempeo cognitivo de los escolares.
Editorial Academia, La Habana. (Premio de Ciencia e Innovacin Educativa, 2007)

z zz z z zz zx xx x x xx x

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <
18. Ravela, P. (2006a) Fichas didcticas. Para comprender las evaluaciones educativas.
PREAL, Santiago de Chile. (http://iccpftp.rimed.cu/calidad)
19. _________ (2006b) Cmo presentan sus resultados los sistemas nacionales de
evaluacin educativa en Amrica Latina? En: Arregui, P. (editora) Sobre
Estndares y Evaluaciones en Amrica Latina. PREAL, Santiago de Chile; pp.182-
248. (http://iccpftp.rimed.cu/calidad)
20. Rizo, C. et al. (1991) Matemtica. Cuarto grado. Editorial Pueblo y Educacin. La
Habana.
21. Rodrguez, G.; J. Gil y E. Garca (2006) Metodologa de la investigacin cualitativa.
Editorial Flix Varela, La Habana.
22. Sabino, C. (2007) El proceso de investigacin. Editorial Panapo, Caracas.
23. Santos, E. M. et al. (1991) El mundo en que vivimos. Editorial Pueblo y Educacin.
La Habana.
24. Silva, M. (2007) Evaluacin, asistida con recursos matemticos, del nivel de
desarrollo de los valores y sus relaciones en la personalidad del estudiante
universitario. En: CD-ROM. Pedagoga 2007. MNED, La Habana.
25. Torres, P. (2006) Las investigaciones sobre evaluacin educativa en Cuba. En:
Revista Digital Ciencias Pedaggicas No.2 (2006) (http://www.ucp.cmg.rimed.cu/)
26. _______ (2007) La Evaluacin Educativa en Cuba, qu se ha logrado y que falta por
lograr. En: CD-ROM, CALDED 2007, SPFPG; Santiago de Cuba. (Conferencia)
27. _______ (2008a) El SECE, su pertinencia y devolucin de resultados: qu tal
estamos? En: CALDED 2008. SPFPG. Sgto. de Cuba. (Conferencia)
28. _______ (2008b) Qu estamos haciendo en Cuba en Evaluacin Educativa? En:
REE. Vol.1 No.1. (http://www.rinace.net/riee/numeros/vol1-num1/art8.pdf)
29. _______ (2009) Cmo puede la Evaluacin Educativa contribuir al mejoramiento del
Sistema Educativo Nacional? En: CALDED 2009. SPFPG. Santiago de Cuba.
(Conferencia) (http://iccpftp.rimed.cu/calidad)
30. Torres, P. y S. A. Galds (2007) Evaluacin Institucional. Editorial Academia, La
Habana. (Premio de Ciencia e Innovacin Educativa, 2005)
31. Torres, P. et al. (2008) Sistema Cubano de Evaluacin de la Calidad de la Educacin.
CCP, La Habana. (Resultado de investigacin). (http://iccpftp.rimed.cu/calidad)
32. Torres, P. et al. (2009) Desarrollo de una cultura de la evaluacin de la Educacin en
Cuba. CCP, La Habana. (Perfil de Proyecto de Investigacin Asociado)
33. Tristn, A. (2001) Anlisis de Rasch para todos. CENEVAL, Ciudad de Mxico.
34. ________ (s/f) Rasch Anlisis Glosario Espaol. Familia de Programas Kalt. San Luis
Potos. En: http://www.ieesa-kalt.com (http://iccpftp.rimed.cu/calidad)
35. Tristn, A. et al. (2008) Anlisis Multinivel de la Calidad Educativa en Mxico ante los
datos de PISA 2006. NEE, Ciudad de Mxico.
36. Valds, H. (2007) Docimologa: de la Teora Clsica del Test a la Teora de
Respuesta al tem. En: Pedagoga 2007. PLAC, La Habana. (Curso Pre-reunin)
37. Valds, H. y F. Prez (1999) Calidad de la Educacin Bsica y su Evaluacin.
Editorial Pueblo y Educacin. La Habana.
38. Valiente, P. y R. lvarez (2000) Una cultura de la Evaluacin. La Evaluacin de
Sistemas Educativos, Polticas y Programas. PLAC, La Habana. (Material
docente)

z zz z z zz zz zz z z zz z

Nmeru 8, 4u l
4bril 2010/ Parte l
O OO Ow ww w< << <m mm m 1 11 1< << << << <

F
F
F
n
n
n
l
l
l
u
u
u
c
c
c
e
e
e
x
x
x

c
c
c
o
o
o
n
n
n

l
l
l
u
u
u

W
W
W
e
e
e
b
b
b
:
:
:

httD://uuu.rlnCC.nCt httD://uuu.rlnCC.nCt httD://uuu.rlnCC.nCt httD://uuu.rlnCC.nCt
httD://(tDlCCD.rlmCO.Cu/CllOO httD://(tDlCCD.rlmCO.Cu/CllOO httD://(tDlCCD.rlmCO.Cu/CllOO httD://(tDlCCD.rlmCO.Cu/CllOO
httD://uuu.CCnCvl.COu.m httD://uuu.CCnCvl.COu.m httD://uuu.CCnCvl.COu.m httD://uuu.CCnCvl.COu.m
httD://uuu.unCCO.C httD://uuu.unCCO.C httD://uuu.unCCO.C httD://uuu.unCCO.Cl/uC l/uC l/uC l/uCbllCCC/ bllCCC/ bllCCC/ bllCCC/
httD://uuu.uCrOnllnC.Or/ httD://uuu.uCrOnllnC.Or/ httD://uuu.uCrOnllnC.Or/ httD://uuu.uCrOnllnC.Or/
httD://uuu.umlCh.COu/CvlCtr/ httD://uuu.umlCh.COu/CvlCtr/ httD://uuu.umlCh.COu/CvlCtr/ httD://uuu.umlCh.COu/CvlCtr/
I
I
I
n
n
n
v
v
v
l
l
l
t
t
t
u
u
u
J
J
J
o
o
o

F
F
F
x
x
x
p
p
p
e
e
e
c
c
c
l
l
l
u
u
u
l
l
l
:
:
:

lvaro Artavia Medrano J Costa Rica {Vase la Parte II]
Su foimacion inicial se ua en el campo ue la Enseanza ue la
Natemtica. Cuenta con un giauo en Evaluacion Euucativa y nivel ue
posgiauo en Auministiacion Euucativa y Cuiiiculo. Ba ueuicauo los
ltimos 1S aos a la uocencia en enseanza meuia, la mayoi paite ue
ellos ue maneia paialela a la uocencia en euucacion supeiioi.
Fungio como cooiuinauoi acaumico y asesoi uel Bepaitamento ue
Piuebas Nacionales en Costa Rica, uel cual tambin fue su uiiectoi.
Actualmente laboia paia el Bepaitamento ue Investigacion e
Innovacion uel Ninisteiio ue Euucacion Pblica ue Costa Rica y se
uesempea como piofesoi ue la Escuela ue Foimacion Bocente ue la
0niveisiuau ue Costa Rica. Asimismo, es canuiuato a Boctoi en
Euucacion uel Piogiama Latinoameiicano ue esa misma univeisiuau y
iealizo su pasantia ue investigacion con el giupo ue Cognicion y
Apienuizaje en Bominios Especificos uel Bepaitamento ue Psicologia
ue la 0niveisiuau ue los Anues, en Bogot, Colombia.
Sus inteieses en el campo investigativo veisan piincipalmente sobie la
evaluacion ue habiliuaues cognitivas, tema en el que se enmaica su
pioyecto ue tesis uoctoial.
Coiieos electionicos: alvaitaviagmail.com alvaio.aitaviauci.ac.ci

819

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

819

Hochgeladen von

Copyright:

Verfügbare Formate

x xx x x xx x

Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB

Das könnte Ihnen auch gefallen