Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB
http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < T TT T T TT TE EE E E EE E0 00 0 0 00 0R RR R R RR R A AA A A AA A D DD D D DD DE EE E E EE E R RR R R RR RE EE E E EE ES SS S S SS SP PP P P PP PU UU U U UU UE EE E E EE ES SS S S SS ST TT T T TT TA AA A A AA A A AA A A AA AL LL L L LL L T TT T T TT TE EE E E EE EM MM M M MM M D DD D D DD Dr rr r r rr r. .. . . .. . C CC C C CC C. .. . . .. . P PP P P PP Pa aa a a aa au uu u u uu uI II I I II I T TT T T TT To oo o o oo or rr r r rr rr rr r r rr re ee e e ee es ss s s ss s F FF F F FF Fe ee e e ee er rr r r rr rn nn n n nn n n nn n n nn nd dd d d dd de ee e e ee ez zz z z zz z / // / / // / C CC C C CC Cu uu u u uu ub bb b b bb ba aa a a aa a ( (( ( ( (( (P PP P P PP Pa aa a a aa ar rr r r rr rr rr r r rr re ee e e ee e I II I I II I) )) ) ) )) ) I In nv vI Ir ra ad do o E Es sp pe ee eI Ia aI I: : A AA A A AA AI II I I II Iv vv v v vv va aa a a aa ar rr r r rr ro oo o o oo o A AA A A AA Ar rr r r rr rr rr r r rr ra aa a a aa av vv v v vv vI II I I II Ia aa a a aa a M MM M M MM Me ee e e ee ed dd d d dd dr rr r r rr ra aa a a aa an nn n n nn no oo o o oo o / // / / // / C CC C C CC Co oo o o oo os ss s s ss sr rr r r rr ra aa a a aa a R RR R R RR RI II I I II Ie ee e e ee ea aa a a aa a ( (( ( ( (( (P PP P P PP Pa aa a a aa ar rr r r rr rr rr r r rr re ee e e ee e I II I I II II II I I II I) )) ) ) )) ) Se han dejado atrs, prcticamente, las dos terceras partes de los Nmeros previstos para el Ao del Boletn. Despus de analizar el objeto principal de trabajo de la lnea de investigacin del Programa Ramal 1 , la manera de concebirlo especialmente para Cuba y sus direcciones principales (en otras palabras, el qu de la lnea), se comenz a analizar, con los Nmeros 6 y 7, las formas y tcnicas de trabajo de esta ciencia de la educacin (o sea, el cmo). Se abordarn entonces, en los tres ltimos Nmeros del Ao, recursos especficos de trabajo, que explican en alguna medida- por qu los evaluadores educativos constituyen un caso especial de investigadores de las ciencias de la educacin y requieren, para su buen desempeo, de una preparacin especial, que va ms all de la que cualquier otro educador recibe, en su formacin profesional, para hacer uso de la investigacin cientfica. Lamentablemente, estas tcnicas especficas de trabajo redundan en el enfoque cuantitativo de investigacin. Ojal llegue el da en que los evaluadores educativos puedan exhibir tambin tcnicas, igualmente propias de su disciplina cientfica, centradas en el enfoque cualitativo. Por cierto, si alguna comunidad cientfica nacional est en condiciones de lograrlo rpidamente cree este autor- es la cubana; no por chovinismo, sino por la conjuncin de varios factores favorables.
1 Recurdese que el trmino Programa Ramal se utiliza en el pas para designar a un conjunto de Proyectos de Investigacin que tienen una lnea de trabajo comn y que resulta de inters especial para una rama (organismo central) del Estado. AO I: R Re ef fe er re en nt te es s t te e r ri ic co os s d de e l la a l l n ne ea a d de e i in nv ve es st ti ig ga ac ci i n n N N M ME ER RO OS S A AN NT TE ER RI IO OR RE ES S: : E Ev va al lu ua ac ci i n n E Ed du uc ca at ti iv va a ( (s se ep pt ti ie em mb br re e 2 20 00 09 9) ) S Si is st te em ma a C Cu ub ba an no o d de e E Ev va al lu ua ac ci i n n d de e l la a C Ca al li id da ad d d de e l la a E Ed du uc ca ac ci i n n ( (o oc ct tu ub br re e 2 20 00 09 9) ) C Ca al li id da ad d E Ed du uc ca at ti iv va a ( (n no ov vi ie em mb br re e 2 20 00 09 9) ) E Eq qu ui id da ad d E Ed du uc ca at ti iv va a ( (d di ic ci ie em mb br re e 2 20 00 09 9) ) E Ef fi ic ca ac ci ia a E Es sc co ol la ar r ( (e en ne er ro o 2 20 01 10 0) ) I In nv ve es st ti ig ga ac ci i n n C Cu ua an nt ti it ta at ti iv va a ( (f fe eb br re er ro o 2 20 01 10 0) ) I In nv ve es st ti ig ga ac ci i n n C Cu ua al li it ta at ti iv va a ( (m ma ar rz zo o 2 20 01 10 0) ) P PR R X XI IM MO OS S N N M ME ER RO OS S: : M Mo od de el lo os s J Je er r r rq qu ui ic co os s L Li in ne ea al le es s ( (m ma ay yo o 2 20 01 10 0) ) S Si is st te em ma as s d de e E Ec cu ua ac ci io on ne es s E Es st tr ru uc ct tu ur ra al le es s ( (j ju un ni io o 2 20 01 10 0) ) AO II: E Ex xp pe er ri ie en nc ci ia as s e ev va al lu ua at ti iv va as s d de e l la a e ed du uc ca ac ci i n n e en n C Cu ub ba a G Gr ru up po os s P Pr ro ov vi in nc ci ia al le es s P Pr ro oy ye ec ct to os s A As so oc ci ia ad do os s E Ed du uc ca ad do or r E Ev va al lu ua ad do or r T Te es si is s D Do oc ct to or ra al le es s y y d de e M Ma ae es st tr r a a A Ar rt t c cu ul lo os s y y P Po on ne en nc ci ia as s
z zz z z zz z
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < Adems de lo anterior, por disponer de colectivos de investigadores (Proyectos de Investigacin Asociados, e incluso un Grupo de investigadores en un nstituto de nvestigacin y dos Centros de Estudio en igual cantidad de Universidades) especialmente dedicados a esa lnea de investigacin; por otro, por estar relativamente despojados de la impronta necesariamente cuantitativa que le imprimen a esta disciplina cientfica los consorcios internacionales y, por ltimo, por la indiscutible fortaleza que han logrado las provincias orientales del pas en la mirada hermenutica del quehacer cientfico en la educacin. Qu es la Teora de Respuesta al Item? Se ha estado sealando que la Evaluacin Educativa es un caso especial de investigacin pedaggica y uno de los principios bsicos que sustentan a la investigacin cientfica (de orientacin cuantitativa) es que los instrumentos de investigacin que se utilicen sean vlidos y confiables 2 . Como se conoce, la confiabilidad est determinada en la prctica- por la consistencia de los resultados de los instrumentos ante individuos distintos, convirtindose as, adems, en el pilar de la necesaria comparacin de los resultados de la evaluacin de la educacin 3 . Sin embargo, las inferencias que se realizan de los resultados de los instrumentos que usualmente se utilizan en las investigaciones orientadas por la Teora Clsica del Test (TCT) 4 , tanto de rendimiento cognitivo como de rendimiento no cognitivo, e incluso de factores asociados a estos (encuestas, revisin de cuadernos de los estudiantes, etc.) no cumplen en rigor- con ese principio bsico. El escollo sera superado si se dispusiera de un modelo a partir del cual se puedan construir instrumentos cuyos resultados no dependan de los individuos que lo responden. El lector nacional no debiera ver esta dificultad metodolgica como algo hipottico y, por tanto, lejano o poco probable; hay evidencias de su manifestacin y efecto engaoso en el pas. Por ejemplo, durante el Operativo Nacional de Evaluacin de
2 "Se pueden agrupar los principales tipos de problemas que debe enfrentar cualquier evaluacin en torno a dos conceptos: validez y confiabilidad" (Ravela, 2006a: 57). 3 "La confiabilidad es una cuestin de grado: los resultados nunca son perfectamente precisos, siempre estn sujetos a error. Este error puede ser grande o chico y lo importante es poder estimarlo. Lo grave en una evaluacin es que no exista ninguna estimacin de error, porque entonces no hay forma de interpretar adecuadamente los resultados" (Ravela, 2006a: 71). 4 Bajo este enfoque, los parmetros fundamentales de los instrumentos de investigacin son los de dificultad (cun cerca o no est el reactivo del dominio o capacidad del individuo sobre el tema explorado) y de discriminacin (qu capacidad tiene el reactivo de diferenciar los individuos con mayor dominio o capacidad en el tema, de los de menor dominio o bajo desarrollo de la capacidad correspondiente). Pero ambas propiedades caracterizadoras del instrumento dependen mucho aqu de la muestra de individuos seleccionados; as un mismo instrumento puede resultar fcil para una muestra y difcil para otra, lo que cuestiona la generalizacin de las conclusiones de la evaluacin (Muiz, 1990) (Fernndez, 2001) (Tristn, 2001) (Prieto-Delgado,2003) (Cortada de Kohan, 2004) (Ravela, 2006a).
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < la Calidad de la Educacin del 2005, los resultados de Matemtica en la Educacin Secundaria Bsica, de la capital, fue favorecida por la muestra de escuelas seleccionadas, dando la imagen de un incremento de la calidad del aprendizaje en la asignatura (de casi dos veces!) de la evaluacin del 2004 a la del 2005; y es que la muestra, an seleccionada a la azar, estuvo constituida mayoritariamente por municipios con resultados tradicionalmente favorables en Matemtica. Ese resultado cre una expectativa injustificada entre dirigentes educacionales, decepcionada con los resultados del 2006 (Torres et al., 2008).
Figura No.1: Efecto engaoso de la TCT en una evaluacin del aprendizaje (2005). Ahora bien, cmo pudiera evadir el evaluador educativo esa nefasta asociacin entre los resultados de los instrumentos de investigacin y las caractersticas de los individuos que lo responden?... Mientras que los resultados se asuman slo a travs de los puntajes brutos de los respondientes (lo que se conoce en estadstica como frecuencias absolutas) el problema muy difcilmente tendr solucin. La clave est en tratar de determinar la probabilidad de cada individuo de responder el reactivo y no la respuesta de ocasin. Si se Iogra un modelo apoyado en Ia probabilidad de respuesta ante eI reactivo, entonces se tendra mayor confianza en que Ios resuItados sern simiIares para sujetos con un dominio equivaIente en eI tema expIorado, aunque no sean los mismos. Pero, las evaluaciones educativas difcilmente utilizan los mismos instrumentos de una edicin a otra (especialmente en el caso de las pruebas de rendimiento cognitivo), luego el problema de la consistencia de los resultados no depender slo de las muestras, sino tambin de los instrumentos. De modo que sta es otra fuente de inconsistencia y, por tanto, de posible incumplimiento del principio de confiabilidad de los instrumentos de investigacin. Tambin de ella se tienen ejemplos de efecto paradjico en los procesos de evaluacin educativa realizados en el pas. Ese es el caso de los resultados que reiteradamente se han obtenido en las preguntas de produccin de textos, en las pruebas de Espaol de los Operativos Nacionales, en las que se reportan altos porcientos de respuestas correctas, an cuando los especialistas las caracterizan como del tercer nivel de desempeo, el de mayor complejidad (Torres, 2008a). 37.5 43.6 57.0 0 20 40 60 80 2002 2003 2004 2005 2006
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < As las cosas, eI modelo buscado ha de reIacionar no sIo Ia probabilidad de respuesta y eI dominio de los individuos, sino tambin eI nivel de dificultad deI reactivo. Esto crea un problema adicional, pues las representaciones de un modelo matemtico se suele presentar con una grfica asociada slo a dos variables (y, por tanto, a dos ejes de coordenadas), mientras que aqu se est hablando ya de tres elementos: probabilidad de respuesta, dominio del individuo y nivel de dificultad del reactivo. Est claro que el resultado (en trminos de probabilidad de respuesta) depende de los otros dos aspectos; luego el eje y (de las ordenadas) debe preservarse para el primero. Se podrn representar los dos ltimos sobre el mismo eje x (de las abscisas)?... Este problema (adicional) ha sido ya resuelto satisfactoriamente en la Docimologa, con la introduccin de una nueva unidad de medida. El destacado evaluador mexicano A. Tristn describe su significado con una extraordinaria claridad en su popular texto "Anlisis de Rasch para todos (Tristn, 2001). El Dr. Tristn explica que, puesto que las frecuencias relativas de xito (p) y de fracaso (q) son estimadores de la probabilidad de respuesta del individuo ante un reactivo y el cociente del primero entre el segundo (p/q) es una manera de expresar la expectativa de xito que se tiene, el dominio de un individuo sobre un tema abordado por un reactivo puede expresarse como el logaritmo 5 de ese cociente o momio, como tambin se le conoce; en smbolos: B(p)=ln(p/q). A esa medida del dominio del individuo se le conoce como lgito 6 . El anhelado vnculo entre dominio (del individuo) y dificultad (del reactivo) se tiene a partir de que mientras que el momio p/q es indicativo del dominio como ya se seal- el momio q/p lo es de la dificultad. Luego no slo puede trabajarse con el logaritmo de la apuesta o momio referida al xito, sino tambin con el logaritmo del momio o apuesta referido a las fallas (q/p) 7 . Es decir, eI lgito hace referencia no sIo aI dominio sino tambin a Ia dificultad, por lo que pueden tratarse ambos aspectos sobre un mismo eje x, el de los lgitos. Resumiendo, y tratando de que no se espanten los no matemticos!, el modelo que se est buscando para asegurar el principio de la confiabilidad de los instrumentos de evaluacin estar determinado, por un lado, por una variable
5 El logaritmo de un nmero no es un misterio o algo inaccesible; as como se puede calcular el minuendo del cual se obtuvo una diferencia, conocidos la resta que result y el sustraendo que "se le quit, se puede tambin en una potencia (b=a x ) determinar el exponente x al que tuvo que ser elevada la base (conocida) a para obtener dicha potencia b; al exponente x buscado a partir de a y b se le denomina logaritmo del nmero b en base a; por ejemplo, 2 es el logaritmo en base 3 del nmero 9, pues 3 2 =9; en smbolos: log 3 9=2. Un caso particular de logaritmo, muy utilizado, es aquel donde el exponente buscado corresponde a la base e=2,7182, llamado logaritmo neperiano; se denota como In(a)=b. (Campistrous et al, 1990) 6 "Lgito es una traduccin libre de (...) logit, (.) forma abreviada de log odd ratio unit que se traduce por unidades en logaritmo del momio. (Tristn,2001: 11) 7 Al logaritmo del momio o apuesta referido a las fallas, D(q)=ln(q/p), se le conoce como calibracin del reactivo. (Tristn,2001: 17)
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < independiente (x) expresada en una nueva unidad de medida, llamada lgito (la que se refiere, al mismo tiempo, al dominio del individuo y a la dificultad del reactivo) y, por otro lado, por una variable dependiente (y) consistente en la probabilidad de respuesta del individuo (de acuerdo con su nivel de dominio del tema y con el grado de dificultad del reactivo empleado). Una representacin grfica tpica de ese modelo terico buscado sera:
Figura No.2: Representacin grfica de una funcin tpica de la TRI. Obsrvese que en el eje x (horizontal) aparecen los lgitos 0, centrados en 0, y en el eje y (vertical) las probabilidades de respuestas correctas, con un rango entre 0 y 1. La grfica describe eI comportamiento de una funcin deI modelo y se Ie conoce como Curva Caracterstica del Item (CCI). Ntese en ella que, por ejemplo, un estudiante con medida en lgitos 0 = 1 tiene una probabilidad p=0,7 de responder correctamente ese reactivo; algo as como un 70% de posibilidades de xito. En cambio, un estudiante con medida 0 = -3 lgitos tiene muy pocas posibilidades de responder correctamente el reactivo; todo lo contrario a otro con medida 0 = +3 lgitos, cuya probabilidad de xito en el reactivo es casi p=1. 8
Es de suponer que el nivel de dificultad del reactivo se encuentre determinado por la zona central de la grfica del modelo, donde la probabilidad de xito crece abruptamente. De hecho, se puede demostrar matemticamente que en el caso del modelo ms extendido, aquel que reconoce slo a ese parmetro o propiedad caracterizadora esencial de la funcin, el nivel de dificultad b est determinado (sobre el eje x) por la probabilidad p=0,5. De modo que, "Si la competencia del sujeto es mayor que la requerida por el tem (...) la probabilidad de respuesta correcta ser mayor que la de una respuesta incorrecta. Por el contrario, si la competencia del sujeto es menor que la requerida por el tem (.), la probabilidad de una respuesta correcta ser menor que la de una respuesta incorrecta (Prieto- Delgado, 2003: 1). Luego, "(.) lo importante no es la calibracin por s misma o la medida por s misma, sino la diferencia entre ellas (Tristn, 2001: 92).
8 No olvide el lector que la probabilidad de un suceso, en tanto cociente de casos favorables entre casos posibles, es siempre un valor entre 0 y 1.
o oo o o oo o
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < Existen diferentes modelos con estas caractersticas: el de Rasch 9 , los logsticos de dos 10 y tres parmetros 11 , el de la curva cbica 12 , la ojiva normal 13 , etc. (Muiz, 1990) (Tristn, 2001) (Cortada de Kohan, 2004). Los ms utilizados son los de naturaleza logstica, fundamentalmente por la comodidad de sus clculos.
9 Desarrollado por el dans G. Rasch en 1960 e impulsado por la Universidad de Chicago, con B. D. Wright y M. H. Stone al frente. gualando ln(p/q) con la diferencia del dominio 0 y la dificultad b, Rasch dedujo la frmula del modelo: p(0)=e (0-b) /[1+ e (0-b) ]. Se constituye en una curva terica contra la que hay que contrastar la curva emprica y tiene la ventaja adicional de que puede utilizarse en muestras pequeas. 10 Elaborado por el norteamericano F. M. Lord hacia finales de los 60, aunque tambin se le atribuye a su connacional A. Birnbaum, desde una dcada antes. Mientras que el modelo de Rasch reconoce un nico parmetro de la CC (el ndice de dificultad b), los defensores de este otro modelo logstico aaden un segundo parmetro de la CCI, denominado ndice de discriminacin, el que est asociado a la pendiente de la CCI en el punto b. La frmula de la funcin del modelo es: p(0)=e Da(0-b) /[1+ e Da(0-b) ], donde 0 sigue siendo el dominio y b la dificultad, a es el ndice de discriminacin ya referido y D es una constante (D=1,7) que ha propiciado un ajuste adecuado de la curva logstica a su antecesora ojiva normal. Es tambin un modelo de contraste y requiere muestras superiores a 300 individuos. 11 mpulsado por F. M. Lord y el Educational Testing Service (ETS). ncorpora un tercer parmetro c, relativo a la probabilidad de adivinar la respuesta del tem, por lo que se le denomina parmetro del seudo azar. Su frmula es: p(0)=c+(1-c){e Da(0-b) /[1+ e Da(0-b) ]}. Tiene la limitacin de que no es un modelo de contraste, sino un modelo de ajuste; de hecho puede generar situaciones paradjicas, cuando la CCI sugiere que el reactivo es difcil para estudiantes de mayor dominio y, a la vez, fcil para sujetos de bajo dominio. Requiere muestras grandes para su aplicacin. 12 Utilizando la Serie de Taylor se puede probar que si se toma x=2p-1, entonces: ln(p/q)=2x+2x 3 /3, con un pequeo error. La cbica se utiliza como modelo de ajuste. 1S Asumen que la CCI viene determinada por la curva normal acumulada, la que bien podra considerarse la "curva caracterstica en la TCT (individuos con un dominio o muy bajo o muy alto hacia las colas y la inmensa mayora de los individuos con un dominio medio, hacia el centro de la "campana); quizs esa sea la razn por la que precede a los modelos logsticos. Fue desarrollado en los aos 40 por D. N. Lawley y L. R. Tucker, as como por el propio F. M. Lord a inicios de los 50, antes de inclinarse por los modelos logsticos; los hay de uno, dos, tres y cuatro parmetros; para el primero la frmula es:
La Teora de Respuesta al Item (TRI) es aquella que aglutina a los modelos que relacionan, al menos, la probabilidad de respuesta de un individuo a un estmulo con la diferencia de la medida de su dominio y la medida de dificultad del reactivo.
y yy y y yy y
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < En (Tristn, 2001) se ofrecen recursos prcticos para el trabajo intuitivo con algunos de estos modelos a travs del accesible Excel, sin el empleo de un software especializado. Los asistentes al V Seminario-Taller de Jefes de Grupos Provinciales de Evaluacin de la Calidad de la Educacin recordarn que, siguiendo a ese autor, se present el procedimiento para construir en Excel grficas aproximadas de CCI, con el ajuste de funciones cbicas (CCP, 2008: 20).
Figura No.3: Obtencin aproximada de una CC con ayuda de Excel. Ahora bien, una pregunta clave para poder comprender cabalmente el papel de los modelos de la TRI es si para cualquier instrumento de evaluacin (en tanto conjunto de reactivos) est garantizada la validez del modelo, y con ella las grandes bondades de esta teora. La respuesta es no, o sea Ia teora no se cumpIe automticamente para cuaIquier reactivo. Por una parte, es necesario que est garantizada Ia unidimensionalidad deI mismo; es decir, que el tem mida un slo conocimiento, aptitud o rasgo latente. Por otra parte, debe estar asegurada Ia independencia de Ios tems; esto quiere decir que para cualquier par de reactivos del instrumento, la respuesta a uno de ellos no dependa de la respuesta al otro (Cortada de Kohan, 2004). Y al final de todo, debe reaIizarse Ia verificacin deI ajuste de Ios datos experimentaIes a una de Ias curvas tericas de Ia TRI, lo cual "(.) requiere de un clculo de parmetros y del valor de error de ajuste [FIT]" (Tristn, 2001: 78). Es bueno aclarar que, no debe verse Ia TRI como una negacin absoIuta de Ia TCT. "Es usual que los evaluadores contrapongan el Anlisis de Rasch 14 al (.) Modelo Clsico (grado de dificultad, poder de discriminacin, anlisis de distractores). Considero que es un error tomar un partido extremista. Puede obtenerse mucho provecho con los aspectos positivos que tiene cada uno de los modelos (.) Ms bien deberamos verlos como modelos complementarios. (Tristn, 2001: 127). Un ejemplo de esa posicin equilibrada, y de sus beneficios, se puede apreciar en la propuesta de (Fernndez, 2001).
14 En representacin de todos los modelos de la TRI, se asume en este Boletn.
s ss s s ss s
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < Para qu sirve la Teora de Respuesta al Item? Varios autores, ms prximos a la Docimologa, prefieren destacar de la TRI sus posibilidades de contribucin a Ia calibracin de Ios reactivos (Valds, 2007) y, en consecuencia, a Ia creacin de bancos de tems para una utiIizacin seIectiva de Ios mismos (Fernndez, 2001) (Cortada de Kohan, 2004). Este autor confiesa que se demor en prestarle atencin a esta novedosa teora por esa razn, an cuando ciertamente- el perfeccionamiento de los instrumentos de evaluacin es un deber elemental de un evaluador educativo. Esa posicin no se modific sino hasta que descubri, con los trabajos del prestigioso evaluador educativo uruguayo P. Ravela sobre todo, que con eI robustecimiento deI principio de confiabilidad Ia TRI propicia un aspecto de mayor trascendencia para Ia Evaluacin Educativa, que es eI de Ia comparacin efectiva de Ios resuItados, no tanto entre los individuos como entre eI estado real y eI estado ideal deI objeto de evaluacin. Esa fue la razn que llev a este autor a realizar, en ocasin del evento nacional CALIDED 2008, la siguiente aseveracin: "(.) una de las grandes ventajas de la TRI es el permitir estimar las capacidades de los estudiantes con independencia de la versin de prueba que se aplique o de muestra seleccionada para el pilotaje (.). En consecuencia, los estudiantes no tienen que realizar una misma prueba, como sucede en el caso de los abarcadores Bloques Incompletos Balanceados (BIB) 15 . Es suficiente con que dos temarios tengan un conjunto de tems comunes (tems de anclaje) para que las puntuaciones de la segunda evaluacin puedan ser comparadas con los de la primera, pues utilizaran una misma escala para los valores de 0 (Ravela, 2006a: 132). "No debe perderse de vista cuntas abstracciones se hacen, por tanto, cuando se realizan comparaciones entre resultados de pruebas de rendimiento cognitivo de Operativos Nacionales o de comprobaciones de conocimientos de formas o perodos diferentes, en trminos de Por cientos de Respuestas Correctas, medida tpica de la teora Clsica del Test, por la que an se rigen las mediciones cognitivas en el pas. (Torres, 2008a: 9). P. Ravela acostumbra a referir -con justicia- los avances del Sistema de Avaliao da Educao Bsica (SAEB), de Brasil 16 , en lo relativo a la utilizacin de la TRI en funcin de la mejora escolar, como un ejemplo del alcance de esa estrategia. Por su importancia y accesibilidad se reproducir aqu, a continuacin. "Los puntajes de TRI no tienen una mtrica especfica. Normalmente se toma arbitrariamente una media de 250 puntos y desviacin estndar de 50, o una
15 Ntese que con los BIB se eleva la validez (.) pues se abarcan ms objetivos especficos (generalmente 90, en vez de los 15 de las Formas Paralelas); por tanto, se tiene en este tipo de prueba de rendimiento una mejor representatividad del programa curricular sobre cuyo dominio se pretende formular juicios de valor. 16 Brasil es reconocido como el primer pas latinoamericano que introdujo la TRI en su Sistema Nacional de Evaluacin Educativa, hace alrededor de 13 aos (1997).
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < media de 500 puntos y desviacin estndar de 100 (.) 17 a partir de los supuestos de la TRI es posible construir una nica escala de puntajes para poblaciones pertenecientes a diferentes niveles de escolaridad; en el caso de Brasil, 4 y 8 de educacin Bsica y 3 de Educacin Media. Ello permite comparar las medias de proficiencia en cada disciplina entre los diferentes niveles del sistema educativo (.) uno de los problemas que plantea el uso de la TRI es la dificultad para comunicar al pblico y a los docentes cmo se llega a la determinacin de los puntajes y qu es lo que estos significan. Difcilmente tendr significado para el lector no especializado, mientras no exista una tradicin o cultura en torno a su interpretacin 18 . Un modo de enfrentar esta dificultad (.) es realizar una clara descripcin de lo que son capaces de hacer los alumnos, que se encuentran en ciertos puntos de la escala de puntajes. En el caso del SAEB, se establecen puntos de corte cada 75 puntos, se explica qu son capaces de hacer los alumnos en cada uno de esos niveles (.) al tiempo que se reporta el porcentaje de alumnos que alcanza o supera ese nivel (.) (Ravela, 2006b: 205-206).
Figura No.4: Ejemplo de utilizacin de la TRI en funcin de la mejora escolar.
17 Justamente esa fue el escalonamiento que se utiliz en el SERCE (OREALC/UNESCO, 2009). En realidad, lo novedoso de la TRI no est en esa forma de presentar los resultados; una escala similar puede ser construida con los resultados de los instrumentos procesados con la TCT. 18 El subrayado es del autor de este Nmero del BoIetn.
x xx x x xx xo oo o o oo o
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < P. Ravela va ms all, en el loable propsito de la utilizacin eficaz de los resultados de la evaluacin educativa con vistas al mejoramiento de la calidad de los Sistemas Nacionales de Educacin, y contina explicando: "En los estudios internacionales, este modo de reportar es empleado de manera estrictamente descriptiva; es decir, se describe lo que los alumnos son capaces de hacer en cada tramo de la escala, pero no se responde a la pregunta: es eso lo que deberan saber, es ms o es menos? (.) El SAEB ha enfrentado este desafo de la siguiente manera: a partir de los resultados descriptivos de lo que son capaces de hacer los alumnos que se encuentran en diferentes puntos de la escala, grupos de especialistas definen en qu momento de la escolaridad los alumnos deberan haber alcanzado cada uno de estos niveles, con lo cual se establece un criterio de valoracin contra el cual es posible responder las preguntas especificadas en el prrafo anterior (.). (Ravela, 2006b: 207-208).
Figura No.5: Ejemplo de utilizacin de la TRI para mejorar la funcin valorativa. Se imagina el lector cunto se puede incrementar la contribucin de los estudios evaluativos nacionales con un trabajo de ese tipo?... Poder decir, primero, qu por ciento de estudiantes asimilaron en el 4 grado de la educacin primaria, donde debieron aprenderlo, cmo dividir dos nmeros con ceros en el cociente (Rizo et al, 1991: 119), o el contenido, estructura y significado de La Edad de Oro (Contreras et al, 1991: 123-133), o la naturaleza y la poblacin y sus principales actividades en Cuba (Santos et al, 1991: 100-131), para despus poder decir qu por ciento, seguramente mayor, lo logra al concluir la educacin primaria, en 6 grado, o la educacin secundaria bsica, en 9 grado!... ncluso, qu porcentaje sali del sistema nacional sin dominar esos contenidos bsicos? Recursos metodolgicos hay ya en el pas para hacerlo (Torres, 2008a) (Torres, 2009).
x xx x x xx xx xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < Es bueno recordar que otro medio frecuentemente utilizado en la evaluacin educativa para buscar una mayor implicacin en la mejora educativa es la descripcin de las proporciones de estudiantes evaluados que logran alcanzar diferentes niveles de desempeo, ordenados ascendentemente por grados de complejidad. Tambin en el pas se ha hecho un notable esfuerzo por emplearlo, an desde la TCT (Puig, 2009). No obstante, ya se seal el efecto paradjico que ha provocado, al menos, en preguntas de Espaol, supuestamente del tercer nivel de desempeo. Lo cierto es que el criterio emprico de que un estudiante asciende de nivel si es capaz de responder un por ciento de preguntas certificadas, por especialistas en el currculo escolar, como de ese grado de complejidad (adems de haber asegurado el nivel de desempeo anterior), termina siendo dbil en comparacin con las posibilidades de mayor precisin que se logra con la TRI, como se explica en la Ficha 9 de (Ravela, 2006b: 147-165) o en (OREALC/UNESCO: 2009: 445-450). Finalmente, es importante destacar que Ia utiIizacin de Ia TRI ha trascendido Ias pruebas de rendimiento cognitivo para extenderse al procesamiento de resultados de otros instrumentos de evaluacin educativa, referidos al rendimiento no cognitivo y a factores asociados a ellos. Se agradece pblicamente, por cierto, la contribucin del destacado evaluador educativo colombiano D. Bogoya en ese sentido. Un ejemplo de las posibilidades y ventajas de la utilizacin del modelo de Rasch en el escalonamiento de una variable de rendimiento no cognitivo, como la habilidad afectiva, puede encontrarse en (Bogoya et al, 2007: 48). Cmo se utiliza la Teora de Respuesta al Item? En (Muiz, 1990:39) se ofrece un procedimiento de siete pasos para el trabajo con uno de los modelos de la TRI; los tres primeros son comunes a la TCT (definicin rigurosa de la variable, elaboracin de los tems y aplicacin de los tems a una muestra adicional de sujetos, a manera de pilotaje). Se explicarn en detalles, entonces, los cuatro Itimos. Comprobacin de Ia unidimensionalidad de Ios tems. Al decir de (Muiz, 1990), el anlisis factorial parece ser la tcnica ms apropiada. Puesto que el conjunto de reactivos que conforman un mismo instrumento pretende medir una misma dimensin (habilidad matemtica, lectora, afectiva, etc.) es de esperar que resulte, al procesar la matriz de datos (conformada en las columnas por los tems y en las filas por los respondientes), un nico factor que explique la mayor parte de la varianza. Los tems que queden representados por factores con bajos niveles de varianza explicada deben ser descartados. Este proceso se hace con ayuda de un software apropiado, como SPSS o Statistica; el usuario slo tiene que completar la tabla de datos original. Un ejemplo de utilizacin de esa tcnica estadstica, en procesos de evaluacin educativa en el pas, puede encontrarse en (Torres-Galds, 2007), al igual que en la tesis doctorales de R. Lorenzo, . Companioni, S. A. Galds y F. Marrero.
x xx x x xx xz zz z z zz z
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << <
Figura No.6: Ejemplo de utilizacin de la tcnica de anlisis factorial. EIegir uno de Ios modeIos de TRI. Se ha sealado que existen diferentes modelos agrupados bajo la TRI (Rasch, los logsticos de dos y tres parmetros, la curva cbica, la ojiva normal, etc.), con preferencia por los de naturaleza logstica (Muiz, 1990) (Tristn, 2001) (Cortada de Kohan, 2004). El modelo ms popular entre todos ellos es el Rasch (Tristn, 2001) (OREALC/UNESCO, 2009), en parte por ser un modelo de contraste y no de ajuste, en parte por no producir situaciones paradjicas como la descrita anteriormente para el modelo logstico de tres parmetros 19 . Estimacin de Ios parmetros de Ios tems y de Ia medida de Ios sujetos. Se trata de un proceso iterativo (por aproximaciones sucesivas) y de clculos laboriosos (Muiz, 1990), por lo que se realiza con la asistencia de un software especializado; como resultado de la participacin de Cuba en los estudios evaluativos del LLECE se dispone en el pas del software Winsteps. En el caso de que se haya seleccionado el modelo de Rasch, en el paso anterior, se estara hablando entonces aqu de b, para cada uno de los tems, y de 0, para cada uno de los respondientes. Sin embargo, en procesos evaluativos que demanden de un elevado rigor tcnico y, en consecuencia, de un marcado control de calidad (como el SERCE) se suelen aadir otros indicadores estadsticos y psicomtricos, algunos individuales, como la discriminacin 20 y la correlacin punto-medida 21 , y otros grupales, como el
19 En el SERCE se manejaron dos criterios tcnicos ms para sustentar la eleccin del modelo de Rasch (OREALC/UNESCO, 2009: 433). 2u La discriminacin es el "poder de un tem para diferenciar a los estudiantes evaluados en distintos niveles de habilidad frente a un constructo medido (OREALC/UNESCO, 2009: 438). Winsteps devuelve ese valor, aunque se conoce que el modelo de Rasch reconoce slo el parmetro de dificultad. 21 La correlacin punto-medida es la relacin entre la respuesta correcta a un tem de una prueba y el valor de habilidad obtenido en dicha prueba (OREALC/UNESCO, 2009: 438).
x xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < promedio 22 , la desviacin estndar 23 , las puntuaciones mximas y mnimas 24 y la funcin de informacin 25 . En el Reporte Tcnico del SERCE, disponible en el sitio ftp del Programa Ramal (http://iccpftp.rimed.cu/calidad), se explica la justificacin del empleo y la interpretacin de cada uno de estos indicadores (OREALC/UNESCO, 2009: 438-445). Un reporte de mucha utilidad que genera el software es la construccin de mapas de distribucin de habilidades y dificultades, en los que simultanean informaciones relativas a 0 (dominio o habilidad) con b (dificultad).
Figura No.7: Ejemplo de mapa de distribucin de habilidades y dificultades. (OREALC/UNESCO, 2009: 442-443) Como bien se explica en (OREALC/UNESCO, 2009: 441): "Esta grfica permite contrastar la dificultad de los tems en una poblacin particular y determinar si stos se ajustan a la poblacin (.) As, pueden ser contrastadas las expectativas de los constructores de tems, en relacin con el nivel de dificultad de los tems y observar si la muestra seleccionada se comporta de acuerdo con los propsitos del diseo muestral (.) Si la distribucin de habilidades tiene valores inferiores a la distribucin de dificultades, quiere decir que para ese grupo poblacional los
22 El promedio es la media aritmtica de las dificultades de los tems del bloque y de las habilidades de las personas que abordan cada bloque (OREALC/UNESCO, 2009: 441). 23 La desviacin estndar es la medida de la dispersin de la distribucin de las dificultades de los tems de un bloque y de la distribucin de las habilidades de las personas que abordan dicho bloque (OREALC/UNESCO, 2009: 442). 24 Las puntuaciones mximas y mnimas se refieren a las puntuaciones logit ms alta y ms baja alcanzadas por una poblacin particular (OREALC/UNESCO, 2009: 442). 25 La funcin de informacin puede ser vista como una expresin matemtica de la precisin de la medida en cada nivel del objeto evaluado; indica el grado de precisin en la edicin. Esta funcin corresponde a la informacin estadstica de cada tem, basada en el modelo de Fisher (OREALC/UNESCO, 2009: 442).
x xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < tems resultaron ms difciles de lo esperado". Ese justamente es el caso de la representacin de la Figura No.7, donde la distribucin de las habilidades (arriba) se encuentra desplazada ms a la izquierda que la distribucin de dificultades (debajo). Ntese la semejanza de estas distribuciones con la curva normal. Cuando el proceso evaluativo a desarrollar no es tan comprometedor como un estudio internacional -por ejemplo, en auto-evaluaciones institucionales o diagnsticos del aprendizaje por el propio docente- entonces se puede realizar este paso de un modo ms elemental. Para ello se puede acudir a la construccin aproximada de las CCI, en el sentido en que propone (Tristn, 2001), bien determinando los parmetros como propone l ah, o incluso observando las caractersticas de las curvas y realizando, sobre la base de ello, inferencias intuitivas acerca de los parmetros, como se explicar en el apartado siguiente. Comprobacin deI ajuste entre eI modeIo y Ios datos. De lo que se trata es de verificar si los valores de las probabilidades de respuestas pronosticados por el modelo terico no difieren significativamente 26 de los obtenidos empricamente. Tanto (Muiz, 1990), como (Valds, 2007) siguiendo al primero, sugieren tres tcnicas factibles de utilizar: el empleo de la distribucin y 2 , el anlisis de los residuos y la comparacin de las distribuciones de las puntuaciones. En la actualidad, el foco parece haberse ubicado en el segundo recurso, con la asistencia de los ordenadores (Prieto-Delgado, 2003) (Tristn, 2001) (OREALC/UNESCO, 2009). En el SERCE, con la ayuda del Winsteps, se consideraron tres indicadores de ese tipo: el ajuste prximo (infit) 27 , el ajuste lejano (outfit) 28 y el funcionamiento diferencial (DIF) 29 , tomados en ese orden durante el anlisis de los tems. Ellos constituyeron un criterio -denominado Categora I- que permiti tomar decisiones acerca de la aceptacin o rechazo del reactivo, an despus de su participacin en la aplicacin definitiva de las pruebas de rendimiento del estudio. Ms claramente, como se explic en el Reporte Tcnico: "Se eliminarn los registros de aquellos estudiantes evaluados cuyo valor de ajuste prximo o lejano sea inferior a 0.7 o superior a 1.373. Una vez hecha esta depuracin se procesa de nuevo la informacin para proceder a aplicar los criterios de depuracin por anlisis de tems, propiamente dichos." (OREALC/UNESCO, 2009: 443).
26 El trmino estadstico "significativamente no debe inducir al lector a la idea de grandes diferencias entre los elementos comparados, el significado correcto es que estas estn aseguradas (con una alta probabilidad), ms all de la muestra en que fue observada; o como seala (Ravela, 2006b: 145): "(.) estadsticamente significativo implica que hay diferencias reales, pero no necesariamente que estas sean sustantivas y relevantes. 27 El ajuste prximo (infit) se refiere a la relacin entre los datos que se encuentran cerca del valor de dificultad del tem y el valor de dificultad (OREALC/UNESCO, 2009: 436). 28 El ajuste lejano (outfit) se refiere a la relacin de los datos que se encuentran lejos de dicho valor de dificultad y esa dificultad (OREALC/UNESCO, 2009: 436). 29 El DIF es el grado en el cual un tem presenta propiedades estadsticas diferentes en distintos grupos (OREALC/UNESCO, 2009: 437).
x xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << <
Figura No.8: Parmetro e ndices utilizados en el SERCE y sus criterios de aceptacin. En la figura siguiente se muestra el reporte que genera el software para tems independientes, lo que permite verificar si el reactivo cumple con los ndices establecidos. La informacin incluye no slo la respuesta correcta sino todas las opciones, de modo que se pueda verificar tambin la exigencia planteada al promedio de la habilidad.
Figura No.9: Devolucin del software Winsteps. (OREALC/UNESCO, 2009: 435) Como en el caso del paso anterior, se explicar en la prxima seccin cmo proceder con la primera tcnica anunciada, cuando no se dispone del software o se desea hacer estudios ms elementales, como una auto-evaluacin institucional o diagnsticos del aprendizaje a instancia de escuelas.
x xx x x xx xo oo o o oo o
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < Quines trabajaran la Teora de Respuesta al Item? No se pretende establecer desde posiciones individuales- pautas para la eleccin de un referente u otro en la lnea de investigacin del Programa Ramal. Justamente por ello, se ha impulsado un Proyecto de Investigacin Asociado de carcter inter-institucional, actualmente en marcha- que habr de arribar a conclusiones cientficas acerca de qu marco terico-metodolgico y qu tcnicas especficas debieran utilizarse en los procesos de evaluacin educativa en el pas, en el marco del SECE, e incluso cmo difundirlos, a manera de desarrollo de una cultura evaluativa (Torres et al, 2009). En su lugar, se harn aqu slo recomendaciones generales, pensando ms que todo en los evaluadores educativos cubanos que, an con mucho deseo de hacer cosas, no disponen del acceso a la tecnologa requerida o los tiempos necesarios para trabajar en ello. Es deseable que los investigadores de Ios Proyectos de Investigacin Asociados al Programa Ramal No.10 y, en especial, los miembros de Ios Grupos Provinciales de Calidad, se esfuercen por hacer un uso a fondo de la TRI en sus estudios evaluativos de alcance nacional y territorial. Para ello se dispone como ya seal- del acceso al Winsteps y a una bibliografa mnima, en soporte digital 30 , disponible en: http://iccpftp.rimed.cu/calidad. No se trata de hacerlo maana mismo, ni de renunciar al manejo cmodo de los resultados obtenidos bajo el prisma de la TCT como tambin ya se explic- sino de comenzar a avanzar por este imprescindible camino de la elevacin del rigor metodolgico de la interpretacin de los resultados y la genuina generalizacin, de cara a la mejora. Ahora bien, si se trata de docentes y directores de escueIas interesados en desarrollar un proceso de auto-evaluacin institucional o profundizar en el diagnstico pedaggico de sus estudiantes empleando la TRI- entonces pueden generarse anlisis ms elementales y accesibles, con la ayuda de Excel, disponible en todas las computadoras personales del centro. Siguiendo a (Tristn, 2001: 50-54) se explicar la determinacin de Ios parmetros de una CCI. Despus de construida la representacin grfica aproximada de la CCI asociada a los resultados de la aplicacin de un instrumento de evaluacin, presentados en forma dicotmica (1 0) 32 , tal y como se explica en (Len et al, 2008), se sigue el siguiente procedimiento:
30 Para facilitar su identificacin, en la Bibliografa de esta primera parte del presente Nmero del Boletn se ha incorporado, al lado de cada obra disponible en soporte digital, el hipervnculo con el sitio del Programa Ramal en el ftp del CCP. 32 Aunque no se cumple siempre a la inversa, una escala de evaluacin puede ser transformada siempre en una escala dicotmica, en trminos de 1 (xito o aprobado) 0 (fracaso o desaprobado). El lector no debera sentir aversin por las escalas dicotmicas; de hecho la alternancia entre 0 y 1 lo acompaa en la vida cotidiana ms de lo que cree; ella sirve de fundamento al trabajo del ordenador, las llamadas con el celular, un ultrasonido clnico o las imgenes del parte meteorolgico por satlite, entre otros ejemplos.
x xx x x xx xy yy y y yy y
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < 1. Estimacin del parmetro c de seudo azar. Para ello debe realizar una lectura sobre el eje y (probabilidades) por el punto por donde la CCI lo corta en valores de 0 muy pequeos (menores que -3 o -4 lgitos). En el caso de la Figura No.10, abajo representada, c=0.
Figura No.10: Ejemplo de estimacin de parmetros de una CCI desde Excel. 2. Determinacin del punto de inflexin de la CCI. Ese importante punto se ubica en p=(c+1)/2. En el ejemplo que se sigue, de la Figura No.10, como c=0, entonces p=0,5. 3. Estimacin del parmetro b, de dificultad. Puesto que b es la medida sobre el eje x correspondiente al punto de inflexin, se traza una paralela desde ste ltimo hasta la curva y desde ah una perpendicular hasta el eje x. En el ejemplo, para p=0,5 se tiene b=0,7. 4. Estimacin del parmetro a, de discriminacin. El valor de a est asociado a la pendiente de la recta tangente a la CCI en su punto de inflexin. Es posible identificar un tringulo rectngulo, cuya hipotenusa es el segmento de recta tangente que se extiende desde el punto de inflexin al punto donde dicha recta corta al eje x (en la Figura No.10, los catetos de dicho tringulo miden, entonces, 0,5 y 2,4 unidades, respectivamente). Del preuniversitario se sabe que la pendiente coincide con la tangente del ngulo agudo d, que a su vez resulta del cociente de la longitud del cateto opuesto entre la del cateto adyacente; en el ejemplo: tand=0,5/2,4=0,2083. Finalmente, se utiliza la frmula siguiente:
De modo que a = 0,2083 . 2,5 / (1-0)= 0,52. Finalmente en este punto, (Tristn, 2001) destaca adems que, de superponerse las CCI de varios tems de un mismo temario (o agrupados por otra razn de inters), un educador no especializado puede tambin hacer anlisis tiles sobre las propiedades de los reactivos representados. Vase el siguiente ejemplo:
x xx x x xx xs ss s s ss s
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << <
Figura No.11: Ejemplo de comparacin de propiedades de CCI desde Excel. A simple vista puede inferirse que la curva 2 representa a un reactivo de mayor capacidad de discriminacin que el correspondiente a la curva 1, pues la pendiente de la recta tangente a la curva 2, en el punto de inflexin comn a ambas curvas, es claramente mayor que la de la curva 1; es decir, separa ms abruptamente los valores de las probabilidades de respuesta de los respondientes hacia el centro de la escala de la medida de la habilidad medida. Por ltimo, en cuanto a no disponer de un software especializado para decidir acerca del ajuste de la curva emprica al modelo terico de CCI, (Muiz, 1990: 50- 52) desarrolla un ejemplo de utilizacin de la distribucin y 2 , tambin modelable en Excel. J. Muiz explica que, una vez determinados los parmetros del modelo logstico seleccionado (pudiera ser como se explic con anterioridad), entonces puede agruparse a los sujetos evaluados en varias categoras de la medida de la habilidad (0) y formar a partir de ellas dos distribuciones de frecuencias, la de los valores de las probabilidades empricamente obtenidas y los que se lograran tericamente con el modelo (como se aprecian en las tablas de las Figuras No.12 y No.13, respectivamente).
Figura No.12: Proporcin p e (0j) de sujetos que superan el tem para cada categora de 0.
x xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << <
Figura No.13: Valores p (0j) de la CCI, dada por la frmula, para cada categora j de 0. Entonces, utilizando el estadgrafo construido por B. Wright y N. Panchapakesan:
Se tiene que y 2 = 4,70+ 3,57+ 1,10+ 2,83= 12,2. Puesto que en la tabla, y 2 0,99 con k-1 = 5-1 = 4 grados de libertad alcanza el valor de 13,28 y ste es mayor que el valor del estadgrafo calculado (12,2), no se puede rechazar la hiptesis nula y se acepta que existe ajuste entre el modelo y los datos. A quines van dirigidos los resultados de la Teora de Respuesta al Item? De los apartados anteriores podr inferirse que tericamente- los reportes de evaluaciones educativas soportadas por TRI pueden ser extensibles a todos las audiencias previstas en el SECE (Torres et al, 2008). Se trata de acompaar los juicios valorativos emitidos de un mnimo de explicacin plausible sobre el significado de las escalas generadas y, ms a largo plazo, de desarrollar la imprescindible cultura de la evaluacin educativa. Cmo se introducen sus resultados? La respuesta ya fue dada, en lo esencial, cuando se explic la importancia de la TRI. Un esfuerzo tan grande como el que demanda ese enfoque slo se justifica si se devuelven a los docentes y directivos comparaciones entre niveles del Sistema Educativo y entre perodos diferentes, especialmente en contraste con los objetivos curriculares prescritos, como se muestra en las Figuras No.4 y No.5 de esta parte del presente Nmero del Boletn (Torres, 2008a) (Torres, 2009). L La a 1 1R Rl l e es s u un n e en nf fu uq qu ue e m me et tu ud du ul l g gi ic cu u q qu ue e s se e a a u uy ya a e en n m mu ud de el lu us s q qu ue e a as su uc ci ia an n l la a r ru ub ba ab bi il li id da ad d d de e r re es s u ue es st ta a d de e l lu us s i in nd di iv vi id du uu us s c cu un n l la a m me ed di id da a d de e s su us s h ha ab bi il li id da ad de es s e en n e el l t te em ma a e ev va al lu ua ad du u. . 4 4l l r ru ub bu us st te ec ce er r e el l r ri in nc ci i i iu u d de e c cu un nf fi ia ab bi il li id da ad d d de e l lu us s i in ns st tr ru um me en nt tu us s d de e e ev va al lu ua ac ci i n n, , l la a 1 1R Rl l r ru u i ic ci ia a u un na a c cu um m a ar ra ac ci i n n e ef fe ec ct ti iv va a d de e l lu us s r re es su ul lt ta ad du us s. .
z zz z z zz zo oo o o oo o
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < B Bi ib bI Ii io og gr ra af f a a: : 1. Baker, F. B. (2001) The Basics of Item Response Theory University of Wisconsin. ERC. Washington. (http://iccpftp.rimed.cu/calidad) 2. Bogoya, D. et al. (2007) Hacia un sistema integral de evaluacin de la calidad de la educacin en Bogot. Serie Cuadernos de Evaluacin. Universidad Nacional de Colombia, Santa Fe de Bogot. 3. Campistrous, L. et al. (1990) Matemtica. Onceno grado. Editorial Pueblo y Educacin, La Habana. 4. Contreras, M. et al. (1991) Lectura. Cuarto grado. Editorial Pueblo y Educacin. La Habana. 5. Cortada de Kohan, N. (2004) Teora de Respuesta al tem: supuestos bsicos. En: Evaluar No.4 (septiembre, 2004). Facultad de Psicologa. Universidad de Crdoba (Argentina) 6. Fernndez, R. (2001) Evaluacin de la competencia matemtica al final de la educacin primaria combinando Teora Clsica de Respuesta al Test y Teora de Respuesta al tem. EOEP General del Naln. Asturias. (http://iccpftp.rimed.cu/calidad) 7. Hernndez-Sampieri, R. et al. (1998) Metodologa de la investigacin. McGraw Hill, Ciudad de Mxico. 8. Len, T. et al. (2008) Aportes metodolgicos del SERCE. En: V Seminario-Taller de Jefes de Grupos Provinciales de Evaluacin de la Calidad de la Educacin. CCP, La Habana (Material docente) (http://iccpftp.rimed.cu/calidad) 9. Linacre, J. M. (2006) Gua del Usuario de Winsteps. Winsteps.com, Chicago. (http://iccpftp.rimed.cu/calidad) 10. Martnez Rizo, F. (2009). Evaluacin formativa en aula y evaluacin a gran escala: hacia un sistema ms equilibrado. Revista Electrnica de nvestigacin Educativa, 11 (2). En: http://redie.uabc.mx/vol11no2/contenido-mtzrizo2.html 11. Muiz, J. (1990) Teora de Respuesta a los tems. Un nuevo enfoque en la evolucin psicolgica y educativa. Ediciones Pirmide, S.A., Madrid. 12. Murillo, J. et al. (2007) Investigacin Iberoamericana sobre Eficacia Escolar. Convenio Andrs Bello (CAB), Bogot. (http://iccpftp.rimed.cu/calidad) 13. OREALC/UNESCO (2001) Primer Estudio Internacional Comparativo sobre Lenguaje, Matemtica y factores asociados, para alumnos del 3er. y 4to. grado de la Educacin Bsica. Informe Tcnico. UNESCO, Santiago de Chile. 14. ________________ (2008) Los aprendizajes de los estudiantes de Amrica Latina y el Caribe. Primer reporte de los resultados del Segundo Estudio Regional Comparativo y Explicativo. Salesianos mpresores, SA; Santiago de Chile. (http://iccpftp.rimed.cu/calidad) 15. ________________ (2009) Reporte Tcnico. Segundo Estudio Regional Comparativo y Explicativo. Los aprendizajes de los estudiantes de Amrica Latina y el Caribe. CD-ROM (SBN: 978-956-322-008-7). (http://iccpftp.rimed.cu/calidad) 16. Prieto, G. y A. R. Delgado (2003) Anlisis de un test mediante el modelo de Rasch. En: Psicothema 2003, Vo.15 No.1. Universidad de Salamanca, pp.94-100 (http://www.psicothema.com) 17. Puig, S. (2009) Propuesta para evaluar el desempeo cognitivo de los escolares. Editorial Academia, La Habana. (Premio de Ciencia e Innovacin Educativa, 2007)
z zz z z zz zx xx x x xx x
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << < 18. Ravela, P. (2006a) Fichas didcticas. Para comprender las evaluaciones educativas. PREAL, Santiago de Chile. (http://iccpftp.rimed.cu/calidad) 19. _________ (2006b) Cmo presentan sus resultados los sistemas nacionales de evaluacin educativa en Amrica Latina? En: Arregui, P. (editora) Sobre Estndares y Evaluaciones en Amrica Latina. PREAL, Santiago de Chile; pp.182- 248. (http://iccpftp.rimed.cu/calidad) 20. Rizo, C. et al. (1991) Matemtica. Cuarto grado. Editorial Pueblo y Educacin. La Habana. 21. Rodrguez, G.; J. Gil y E. Garca (2006) Metodologa de la investigacin cualitativa. Editorial Flix Varela, La Habana. 22. Sabino, C. (2007) El proceso de investigacin. Editorial Panapo, Caracas. 23. Santos, E. M. et al. (1991) El mundo en que vivimos. Editorial Pueblo y Educacin. La Habana. 24. Silva, M. (2007) Evaluacin, asistida con recursos matemticos, del nivel de desarrollo de los valores y sus relaciones en la personalidad del estudiante universitario. En: CD-ROM. Pedagoga 2007. MNED, La Habana. 25. Torres, P. (2006) Las investigaciones sobre evaluacin educativa en Cuba. En: Revista Digital Ciencias Pedaggicas No.2 (2006) (http://www.ucp.cmg.rimed.cu/) 26. _______ (2007) La Evaluacin Educativa en Cuba, qu se ha logrado y que falta por lograr. En: CD-ROM, CALDED 2007, SPFPG; Santiago de Cuba. (Conferencia) (http://iccpftp.rimed.cu/calidad) 27. _______ (2008a) El SECE, su pertinencia y devolucin de resultados: qu tal estamos? En: CALDED 2008. SPFPG. Sgto. de Cuba. (Conferencia) (http://iccpftp.rimed.cu/calidad) 28. _______ (2008b) Qu estamos haciendo en Cuba en Evaluacin Educativa? En: REE. Vol.1 No.1. (http://www.rinace.net/riee/numeros/vol1-num1/art8.pdf) 29. _______ (2009) Cmo puede la Evaluacin Educativa contribuir al mejoramiento del Sistema Educativo Nacional? En: CALDED 2009. SPFPG. Santiago de Cuba. (Conferencia) (http://iccpftp.rimed.cu/calidad) 30. Torres, P. y S. A. Galds (2007) Evaluacin Institucional. Editorial Academia, La Habana. (Premio de Ciencia e Innovacin Educativa, 2005) 31. Torres, P. et al. (2008) Sistema Cubano de Evaluacin de la Calidad de la Educacin. CCP, La Habana. (Resultado de investigacin). (http://iccpftp.rimed.cu/calidad) 32. Torres, P. et al. (2009) Desarrollo de una cultura de la evaluacin de la Educacin en Cuba. CCP, La Habana. (Perfil de Proyecto de Investigacin Asociado) 33. Tristn, A. (2001) Anlisis de Rasch para todos. CENEVAL, Ciudad de Mxico. 34. ________ (s/f) Rasch Anlisis Glosario Espaol. Familia de Programas Kalt. San Luis Potos. En: http://www.ieesa-kalt.com (http://iccpftp.rimed.cu/calidad) 35. Tristn, A. et al. (2008) Anlisis Multinivel de la Calidad Educativa en Mxico ante los datos de PISA 2006. NEE, Ciudad de Mxico. 36. Valds, H. (2007) Docimologa: de la Teora Clsica del Test a la Teora de Respuesta al tem. En: Pedagoga 2007. PLAC, La Habana. (Curso Pre-reunin) 37. Valds, H. y F. Prez (1999) Calidad de la Educacin Bsica y su Evaluacin. Editorial Pueblo y Educacin. La Habana. 38. Valiente, P. y R. lvarez (2000) Una cultura de la Evaluacin. La Evaluacin de Sistemas Educativos, Polticas y Programas. PLAC, La Habana. (Material docente)
z zz z z zz zz zz z z zz z
Buletin Hensual del Prugrama Ramal Nu.10 del HlNLB http://www.rimed.cu CUBAEDUCA: ESENCIALES pauI@rimed.cu Nmeru 8, 4u l 4bril 2010/ Parte l I II I < << <m mm mI II Iw ww wm mm mO OO O< << <x xx x O OO Ow ww w< << <m mm m 1 11 1< << << << <
F F F n n n l l l u u u c c c e e e x x x
c c c o o o n n n
l l l u u u
W W W e e e b b b : : :
httD://uuu.rlnCC.nCt httD://uuu.rlnCC.nCt httD://uuu.rlnCC.nCt httD://uuu.rlnCC.nCt httD://(tDlCCD.rlmCO.Cu/CllOO httD://(tDlCCD.rlmCO.Cu/CllOO httD://(tDlCCD.rlmCO.Cu/CllOO httD://(tDlCCD.rlmCO.Cu/CllOO httD://uuu.CCnCvl.COu.m httD://uuu.CCnCvl.COu.m httD://uuu.CCnCvl.COu.m httD://uuu.CCnCvl.COu.m httD://uuu.unCCO.C httD://uuu.unCCO.C httD://uuu.unCCO.C httD://uuu.unCCO.Cl/uC l/uC l/uC l/uCbllCCC/ bllCCC/ bllCCC/ bllCCC/ httD://uuu.uCrOnllnC.Or/ httD://uuu.uCrOnllnC.Or/ httD://uuu.uCrOnllnC.Or/ httD://uuu.uCrOnllnC.Or/ httD://uuu.umlCh.COu/CvlCtr/ httD://uuu.umlCh.COu/CvlCtr/ httD://uuu.umlCh.COu/CvlCtr/ httD://uuu.umlCh.COu/CvlCtr/ I I I n n n v v v l l l t t t u u u J J J o o o
F F F x x x p p p e e e c c c l l l u u u l l l : : :
lvaro Artavia Medrano J Costa Rica {Vase la Parte II] Su foimacion inicial se ua en el campo ue la Enseanza ue la Natemtica. Cuenta con un giauo en Evaluacion Euucativa y nivel ue posgiauo en Auministiacion Euucativa y Cuiiiculo. Ba ueuicauo los ltimos 1S aos a la uocencia en enseanza meuia, la mayoi paite ue ellos ue maneia paialela a la uocencia en euucacion supeiioi. Fungio como cooiuinauoi acaumico y asesoi uel Bepaitamento ue Piuebas Nacionales en Costa Rica, uel cual tambin fue su uiiectoi. Actualmente laboia paia el Bepaitamento ue Investigacion e Innovacion uel Ninisteiio ue Euucacion Pblica ue Costa Rica y se uesempea como piofesoi ue la Escuela ue Foimacion Bocente ue la 0niveisiuau ue Costa Rica. Asimismo, es canuiuato a Boctoi en Euucacion uel Piogiama Latinoameiicano ue esa misma univeisiuau y iealizo su pasantia ue investigacion con el giupo ue Cognicion y Apienuizaje en Bominios Especificos uel Bepaitamento ue Psicologia ue la 0niveisiuau ue los Anues, en Bogot, Colombia. Sus inteieses en el campo investigativo veisan piincipalmente sobie la evaluacion ue habiliuaues cognitivas, tema en el que se enmaica su pioyecto ue tesis uoctoial. Coiieos electionicos: alvaitaviagmail.com alvaio.aitaviauci.ac.ci