Beruflich Dokumente
Kultur Dokumente
evaluaciones educativas
Fichas didacticas
Ficha 4
Pedro Ravela
ficha nº 4
Esta ficha tiene como objetivo ayudar al idealmente, “concertadas” con otros
lector a desarrollar su capacidad para leer actores;
críticamente las evaluaciones.
b. los datos y percepciones que poseemos
La formulación de juicios de valor es el acerca de la realidad evaluada son
centro de la evaluación. Pero, como se siempre aproximaciones parciales a la
mostró en las fichas anteriores, ésta no es misma.
una actividad objetiva y aséptica, en la
medida en que: Por lo tanto, todo lector inteligente de
evaluaciones debería, antes de aceptar las
a. intervienen valores y visiones del mundo conclusiones y valoraciones resultantes,
y de la realidad evaluada que son mirar con ojo crítico y particular cuidado el
construidas por los evaluadores e, modo en que la evaluación fue realizada.
Validez y confiabilidad
capacidades que fueron definidas como 1.3. En la Figura 1 se puede observar otro
propósito del curso. ejemplo de una actividad de Matemática
que no evalúa lo que dice evaluar.
1.2. Una actividad de Matemática tiene un
alto contenido de consignas verbales. Los Se trata de un ítem que, teóricamente, está
alumnos que tienen menor competencia dirigido a evaluar la capacidad del alumno
para la lectura no comprenden lo que se les para resolver problemas. Sin embargo, si se
está pidiendo, por lo que sus resultados son lo analiza detenidamente se puede constatar
malos no porque no sepan razonar que en realidad no hay ningún “problema” a
matemáticamente, sino porque no resolver. Para llegar a la respuesta correcta
entienden “de qué se trata”. En cambio, los es necesario, en primer lugar, que el alumno
alumnos con mayor habilidad para la lectura haya memorizado la fórmula de cálculo del
tendrán más posibilidades de resolver la volumen de un poliedro. En segundo lugar,
actividad. el alumno necesita ser capaz de multiplicar
números enteros.
En este caso, la actividad no está evaluando
lo que se supone debe evaluar. Evalúa Tal como está planteada, la actividad sólo
lectura antes que capacidades o puede ser considerada un “problema” desde
conocimientos matemáticos. una concepción muy simplista y escolar de lo
que es “resolución de problemas”.
Figura 1
Una actividad de “resolución de problemas”
a) 3,6 cm 3
12
b) 300 cm 3 cm
c) 360 cm 3
d) 3.600 cm 3 10
30 cm
cm
Fuente: Administración Nacional de Educación Pública/ Unidad de Medición de Resultados Educativos, 2000.
Evaluaciones Nacionales de Aprendizajes en Educación Primaria en el Uruguay. 1995-1999. UMRE, Montevideo.
Para estos casos, en que no existe referente. Los siguientes son algunos
consistencia entre el instrumento ejemplos.
empleado para recoger evidencia empírica
(la prueba) y el referente de la evaluación 2.1. Una prueba tiene como objetivo
(aquello que ha sido definido como evaluar el dominio del currículo de ciencias
capacidades o aprendizajes esperables en vigente para en determinado grado, pero
los alumnos), se utiliza técnicamente la sus actividades sólo cubren la cuarta parte
expresión “validez de constructo”. de los conocimientos científicos relevantes
que los alumnos deberían dominar e ignora
2. La prueba no abarca adecuadamente los restantes.
lo que los estudiantes deberían haber
aprendido 2.2. Otro ejemplo de este tipo de problema
es la antigua práctica de “sortear” temas
Una prueba puede ser coherente con la para en examen a través de un “bolillero” o
definición de qué se espera que los alumnos “balotario”. En este caso, se sorteaba un
aprendan pero no cubrir adecuadamente los tema de todos los que el alumno debería
diferentes aspectos definidos en el
empírica tales como los antecedentes qué aspectos son prioritarios para el
académicos y funcionales de los candidatos. desempeño del cargo. Por ejemplo, suele
tener mucho más peso en el puntaje final la
En este caso los resultados de la evaluación antigüedad del individuo en el sistema, su
deben tener la capacidad de anticipar dos desempeño en una prueba teórica sobre
cosas principales: educación o la acumulación de certificados
de participación en seminarios, cursos y
a. qué candidatos tienen las aptitudes talleres, que las habilidades del candidato
imprescindibles para el cargo y cuáles relacionadas con la gestión de una
no; organización compleja o sus capacidades
relacionadas con las relaciones humanas y el
b. qué candidatos tienen más aptitudes y liderazgo.
cuáles menos; es decir, se espera que la
evaluación prediga quiénes serán 3.3. En tercer lugar, dada la cantidad de
mejores en el desempeño de los cargos, candidatos a evaluar, normalmente en estas
a efectos de que tengan prioridad para evaluaciones intervienen varios tribunales o
acceder a los mismos. jurados diferentes, pero no existen
procedimientos explícitos para garantizar
Este tipo de procesos de evaluación suele la máxima consistencia posible entre
estructurarse en torno a un análisis de los estos diversos evaluadores. Por lo tanto,
méritos -–la formación y títulos alcanzados el resultado de un candidato suele depender
por cada candidato, su trayectoria en el del tribunal o jurado que le toque en suerte
sistema educativo, sus publicaciones, etc.-- –éste es también un problema de
y a la realización de varias pruebas, algunas confiabilidad que analizaremos más adelante
de carácter teórico y otras de tipo práctico en esta ficha-.
como, por ejemplo, conducir una reunión de
docentes o analizar una clase dictada por un Como resultado de la acumulación de los
profesor. problemas anteriores, normalmente estas
evaluaciones no consiguen su propósito de
Del conjunto de los elementos anteriores identificar a los candidatos más aptos para
suele derivarse un puntaje final, que es el desempeñar cargos de responsabilidad y
que determina el ordenamiento de los ordenarlos de manera más o menos
candidatos y sus posibilidades de acceder a adecuada a su capacidad para desempeñar
los cargos disponibles. el cargo. A este tipo de problemas se le
denomina técnicamente como de “validez
Este tipo de evaluaciones suele tener tres predictiva”.
debilidades principales:
El ejemplo que acabamos de utilizar pone de
3.1. En primer lugar, no suele existir un manifiesto un problema particularmente
referente explícito para la evaluación, es grave de los sistemas educativos: por lo
decir, una descripción elaborada y general, éstos carecen de mecanismos
apropiada de qué tipo de conocimientos y apropiados para seleccionar válidamente a
competencias se requiere para desempeñar quienes desempeñarán cargos de conducción
el cargo de director de una escuela, cuáles -–así como también a los formadores de
son más importantes que otras, cuáles son docentes--, con lo cual se generan diversas
los niveles básicos e imprescindibles de dinámicas perversas: muchos directores no
competencia y cuáles serían niveles son reconocidos técnicamente por sus
destacados de competencia. Como docentes y muchos supervisores no son los
consecuencia de ello, las pruebas suelen ser docentes más competentes, con lo cual las
elaboradas y evaluadas a partir de la visión cadenas de autoridad, de transmisión de
personal e implícita que los miembros del conocimiento práctico y de aprendizaje
tribunal o jurado encargado de la institucional se debilitan. Simultáneamente,
evaluación tienen acerca de los temas muchos individuos competentes no son
anteriores. seleccionados o desisten de presentarse a
estos procesos de selección, con lo cual el
3.2. En segundo lugar, muchas veces estas sistema desperdicia talento, conocimiento y
evaluaciones no establecen con claridad capacidades.
En los últimos años se han incrementado las Un último tipo de amenazas a la validez de
propuestas para establecer incentivos las evaluaciones educativas tiene relación
económicos para las escuelas o los docentes con el grado en que el desempeño de los
individuales, en función de los resultados de individuos en una prueba se ve afectado por
sus alumnos medidos a través de una prueba las condiciones de aplicación de la misma.
nacional estandarizada.
5.1. Ejemplos de este problema son, en
La versión simple de estas propuestas primer lugar, las situaciones de examen
adolece de serios problemas. En particular, tradicional en que el desempeño de los
implica calificar la calidad de los centros individuos se ve fuertemente afectado por
educativos a partir de evidencia empírica nervios o angustia ante la situación de
muy limitada: los resultados de una evaluación.
generación de alumnos en pruebas de
Lenguaje y Matemática, por ejemplo. Como 5.2. En segundo término, las evaluaciones
resulta obvio, lo que las familias y la estandarizadas que no tienen consecuencias
sociedad esperan de los centros educativos para los individuos que las realizan -–es
es mucho más que esto. Al focalizar los decir, por ejemplo, que no formarán parte
incentivos en un tipo limitado de resultados de alguna calificación necesaria para ser
lo que se consigue es propiciar la reducción promovido a otro grado, ciclo o nivel
del abanico de prioridades de las escuelas a educativo o profesional –- conllevan el
mejorar sus resultados en las pruebas riesgo de que los alumnos no realicen todo
estandarizadas. Este es un “efecto perverso” el esfuerzo de que son capaces, por lo que
o no deseado del uso de la evaluación. los resultados casi seguramente serán algo
inferiores a lo que realmente son capaces
Este tipo de casos, en que se pretende hacer de lograr los estudiantes. Este problema es
un uso de los resultados de una evaluación particularmente importante en la educación
que va más allá de lo que la evaluación media, cuando las pruebas son respondidas
permite y de aquello para lo cual fue por adolescentes.
diseñada, constituye lo que técnicamente se
denomina problemas de “validez de uso” o, 5.3. En tercer lugar, es preciso mencionar
también, “validez de consecuencias”. los casos en que los instrumentos de
evaluación tienen “sesgos”, en el sentido de
La validez de consecuencias alerta al lector que favorecen el desempeño de ciertos
sobre la necesidad de analizar la grupos. Por ejemplo, las actividades de una
consistencia entre los propósitos para los prueba pueden resultar más motivadoras
cuales fue diseñada una evaluación y los para las niñas que para los varones o pueden
usos que se hace de sus resultados. Y contener situaciones más familiares para los
también, invirtiendo los términos, llama la niños y niñas de medios urbanos que para
atención de quienes encargan o diseñan un los de medios rurales.
sistema de evaluación hacia la necesidad de
definir clara y explícitamente cuáles son sus En estos casos, se habla técnicamente de
propósitos, qué tipo de decisiones se “validez de las condiciones de
pretende tomar, para luego establecer un aplicación”.
diseño de la evaluación acorde con ellos.
El concepto de validez
El elemento común a todos los ejemplos evaluar o en que el uso de sus resultados va
analizados hasta el momento es que se trata más allá de lo que la evaluación permite.
de situaciones en que la evaluación no
evalúa realmente aquello que se propuso
Ninguna evaluación está exenta de este tipo En términos de los ejemplos que acabamos
de problemas, pero todas deben dar cuenta de presentar, este giro en el enfoque
de las acciones tomadas para minimizarlos. implica poner la atención en el grado en que
Y los involucrados en un proceso de las interpretaciones y consecuencias de una
evaluación –quienes la encargan, quienes la evaluación son apropiadas, dadas la
llevan adelante, quienes son evaluados, evidencia empírica y la teoría disponibles.
quienes usan los resultados o se informan de
ellos- deben estar alertas a estas “amenazas En el ejemplo del proceso de selección de
a la validez”. directores, el problema no es que las
pruebas y la evaluación de méritos sean
Si bien hasta el momento hemos tratado a la malas en sí mismas. El problema es si la
validez como una propiedad de las decisión de seleccionar a los directores tiene
evaluaciones, las elaboraciones más sustento suficiente en el conjunto de
recientes del concepto tienden a plantearlo evidencia empírica utilizado para ello.
en términos de una propiedad de las
interpretaciones y usos que se hacen de los En el ejemplo de la prueba de ensayo en
resultados de una evaluación. Historia, no es que la prueba en sí misma
sea mala, sino que no es posible
“La validez no es una propiedad intrínseca de interpretarla como evidencia de logro de los
las pruebas o las encuestas, sino una objetivos explícitos del curso.
propiedad de las interpretaciones y los usos
que se propone dar a los datos que se La importancia de este cambio de
obtienen de ellas. Es así que actualmente se
define la validez como el grado en que la
perspectiva radica en que enfatiza la
evidencia empírica y la teoría dan sustento a responsabilidad que los evaluadores y
las interpretaciones de los resultados de una usuarios de las evaluaciones tienen en
medición. Asimismo, la validez se refiere al cuanto al uso apropiado de las mismas, en
ámbito del uso legítimo de esas lugar de limitar el tema de la validez a un
interpretaciones y también al grado en que el problema técnico de los instrumentos.
uso de la prueba no produce un impacto
negativo no deseado sobre el sistema Los docentes, los técnicos, los formuladores
educativo. En otras palabras, la validez se de políticas, los periodistas y los ciudadanos,
refiere a la calidad de las conclusiones que
tomamos a partir de las mediciones y a las
tienen la responsabilidad de analizar y
consecuencias que las mediciones generan en preguntar por el grado en que el uso y
los procesos que se proponen medir” 1 . consecuencias de una evaluación tienen un
sustento adecuado.
Confiabilidad
marca los límites de precisión de dicho Para que la diferencia sea “estadísticamente
promedio (véase la Figura 2). significativa”, las “cajas” no deben
superponerse. Eso garantiza que, cualquiera
El significado de esta “caja” es el siguiente: sea el puntaje “verdadero” de los dos
el valor real del promedio de cada país se países, está garantizado que uno de ellos
ubica, con un 95% de confianza, en algún está por encima del otro.
lugar dentro de la caja, no estrictamente
en la línea que indica la media. Como ejemplo de lo anterior, en la Figura 2,
correspondiente a la evaluación PISA 2000,
En otras palabras, cada país obtuvo una Finlandia tiene un resultado superior a
media sujeta a error y el valor de esa media Canadá, pero no hay diferencias
puede variar dentro de los límites del significativas entre este último país y Nueva
intervalo de confianza, es decir, el valor Zelanda, Australia e Irlanda.
correspondiente a un país puede ser algo
mayor o algo inferior al que indica la media. En el otro extremo del gráfico, el resultado
de Brasil es inferior al de México y el de
Este hecho tiene consecuencias muy México al de Luxemburgo, pero las
importantes. Si las “cajas” correspondientes diferencias no son significativas entre
a dos países diferentes se superponen, es Letonia, Rusia, Portugal y Grecia.
decir, si tienen en común una parte de la
escala de puntajes, esto significa que no De todos modos debe subrayarse que
puede afirmarse con propiedad que el “estadísticamente significativo” no significa
resultado de uno sea mejor o peor que el que las diferencias entre dos países sean de
resultado del otro. gran magnitud. En realidad normalmente las
diferencias entre países “adyacentes” en un
En términos técnicos se dice en estos casos ranking son pequeñas, aún cuando sean
que la diferencia de puntajes no es “estadísticamente significativas”. Esto
“estadísticamente significativa”, lo cual último solo quiere decir que existe una
implica que, debido al error de medición, no diferencia real, pero la misma puede ser
podemos saber si el país que aparece con un grande, mediana o pequeña. Este tema es
puntaje más bajo en realidad no es mejor abordado con más detalle en las fichas 8 y
que el otro. 10.
Figura 2
Resultados de PISA 2000 en Lectura
Síntesis final
1
La definición corresponde a Gilbert Valverde (2001); “La interpretación justificada y el uso apropiado de los
resultados de las mediciones”. En Ravela, P. (editor); Los Próximos Pasos: ¿Hacia dónde y cómo avanzar en la
evaluación de aprendizajes en América Latina?. PREAL/GTEE.
2
LINN, R. & GRONLUND, N., 2000; Measurement and Assessment in Teaching (8ª edición), pp. 131-133. Prentice
Hall.