Sie sind auf Seite 1von 17

Wiggins, G. (1998) Rúbricas para la Evaluación (capítulo 7).

En: Educative Assessment. Designing Assessments to Inform and Improve Student


Performance. San Franciso. Jossey-Bass.

(En castellano: Evaluación Educativa. Diseñando evaluaciones para informar y


mejorar el desempeño de los estudiantes).

Selección y traducción del capítulo 7, realizada en el Instituto de Evaluación Educativa por


Jennifer Viñas y Pedro Ravela.

Capítulo 7
Rúbricas para la Evaluación

Una de las herramientas más básicas para todo evaluador de desempeños es la rúbrica. La
rúbrica explicita para evaluados y evaluadores qué elementos del desempeño son más
importantes y cómo el trabajo será valorado en términos de calidad relativa.

Las preguntas acerca del diseño y uso de las rúbricas son abundantes entre los educadores. En
los capítulos anteriores se dieron algunos ejemplos de rúbricas apropiadas para varias tareas de
evaluación y sugirieron que el papel central de las buenas rúbricas en la evaluación, es la
mejora del desempeño a través del auto-ajuste del evaluado. Este capítulo profundiza en
preguntas como:

 ¿Las rúbricas deberían ser genéricas o específicas para cada tarea? ¿Holísticas
(enfocadas en una impresión general) o analíticas (enfocadas en un único
rasgo o criterio)?

 ¿A quién están dirigidas las rúbricas? ¿Al principiante que es evaluado o al


evaluador que es veterano en la tarea?

 ¿Puede una rúbrica dar un puntaje preciso sin brindar inferencias válidas?

 ¿Puede ocurrir que una rúbrica anule la creatividad, aún cuando ayude al
estudiante a saber lo que se espera de él/ella?

 ¿Cómo hace un evaluador para construir una rúbrica?

¿Qué es una rúbrica?

La palabra rúbrica viene de ruber, palabra del latín que significa rojo. En los tiempos
medievales, una rúbrica era un conjunto de instrucciones o un comentario adjunto a una ley o a
un texto litúrgico, que típicamente era escrito en rojo. De este modo, el término “rúbrica” llegó
a significar algo derivado de una autoridad que instruye a la gente.

En la evaluación de estudiantes una rúbrica es un conjunto de guías de valoración y/o


calificación para evaluar el trabajo de los estudiantes. Las rúbricas responden a las siguientes
preguntas:

 ¿Con qué criterios debería juzgarse el desempeño?


2

 ¿Dónde y qué deberíamos buscar para juzgar el logro de un desempeño?

 ¿Cómo es el rango de calidades del desempeño?

 ¿Cómo podemos determinar en forma válida, confiable y justa la calificación que


debería otorgarse y su significado?

 ¿Cómo deberían describirse los diferentes niveles de calidad y lo que distingue a un


nivel de otro?

Típicamente, una rúbrica contiene una escala de puntos que es posible asignar al valorar un
trabajo, en un continuo de calidad. Los números altos usualmente se asignan a los mejores
desempeños. En general las escalas utilizan los números 4, 5, o 6 como los puntajes más altos,
y 1 o 0 como los más bajos.

Una rúbrica ofrece descriptores para cada nivel de desempeño, para permitir una valoración
más confiable e imparcial. A veces se usan indicadores dentro de un descriptor, para dar
ejemplos o señales concretas de evidencia para cada nivel. Dado que los descriptores contienen
criterios y a menudo están referidos a estándares, una buena rúbrica hace posible una
distinción válida y confiable de los desempeños –esto es, referida a criterios-. La figura 7.1
ilustra el uso de criterios, descriptores e indicadores en una rúbrica para evaluar un ensayo del
último grado del secundario.

Los criterios son las condiciones que cualquier desempeño debe cumplir para ser considerado
exitoso; definen qué significa cumplir con los requisitos de la tarea. Para una tarea intelectual
como “escuchar efectivamente”, por ejemplo, quizás decidamos establecer dos criterios:
comprender el mensaje (o dar los pasos adecuados para comprenderlo), y hacer que quien
habla se sienta escuchado. Ofrecer indicadores o comportamientos específicos que indican si los
criterios han sido cumplidos o no, resulta en una guía más específica. Los indicadores de que un
estudiante está dando pasos para comprender lo que ha oído incluyen, por ejemplo, el tomar
notas, hacer preguntas adecuadas, parafrasear el mensaje, estar atento, y otros por el estilo.

La razón por la que no construimos rúbricas a partir de indicadores, que pueden parecer más
concretos y útiles para estudiantes y evaluadores, es que los indicadores no son infalibles. Los
criterios deben ser logrados; los indicadores son una ayuda, pero un estudiante puede lograr
los criterios sin cumplir con todos los indicadores específicos descriptos. Un indicador dice a los
evaluadores por dónde pueden buscar y qué deberían mirar al valorar un desempeño. Pero
ningún indicador es 100% confiable. Por ejemplo, el estudiante aparentemente atento puede
no estar haciendo esfuerzos para comprender lo que se le dice, mientras que un estudiante que
parece distante del que habla y no toma notas puede, no obstante, estar escuchando
atentamente y comprendiendo lo que se le dice.

Muchas rúbricas comenten el error de confiar demasiado en indicadores que son fácilmente
observables pero poco confiables. Debemos tener cuidado y asegurarnos que los criterios que
elegimos son necesarios y suficientes, como conjunto, para asegurar que se logró lo que se
buscaba. Los primeros intentos que los educadores realizan con las rúbricas, a menudo pasan
por alto los modos más difíciles de ver pero más válidos de evaluar el logro.
3

Figura 7.1. Rúbrica del Colegio Heritage High School de Littleton, Colorado, para
evaluar ensayos de bachilleres

9--8 El rango superior de respuestas satisface los siguientes criterios:


a. Síntesis. La síntesis debe identificar la idea principal [de la lectura].
b. Foco del acuerdo. El acuerdo y/o desacuerdo pueden ser completos o
parciales, pero el escritor debe dejar claro con que está de acuerdo o en
desacuerdo. Específicamente, los trabajos de 9-8 deben discutir la tesis del
autor, no el abuso de sustancias en general.
c. Sustento para el acuerdo / desacuerdo. La fundamentación debe
proporcionar un análisis de los argumentos y/o ejemplos relevantes y
concretos.
d. Estilo y coherencia. Estos trabajos tienen un estilo claro, organización
general y una progresión del pensamiento. Contienen unos pocos errores
repetidos de uso, gramática o tipeo.

[Las cuatro frases en cursiva representan las dimensiones que están siendo
valoradas. Dos de los criterios están subrayados.]

Esta calificación es usada para trabajos que cumplen los requisitos básicos de los
7.
calificados con 9-8, pero tienen menos desarrollo, fundamentación o análisis.

Trabajos de rango intermedio, que omiten o son deficientes en uno de estos cuatro
6--5
criterios:

a. Síntesis. La síntesis está ausente o incompleta, solo se lista la tesis del


autor.

b. Foco del acuerdo / desacuerdo. Aquello con lo que quien escribe está en
acuerdo/desacuerdo no es claro o no se relaciona con las propuestas del
autor. Ejemplo: el escritor no usa suficientes frases como "por un lado… por
otro lado…" [Un indicador].

c. Sustento. El escritor solo contra-afirma; los ejemplos son muy generales o


no distinguibles de los ejemplos en el artículo. El análisis puede ser pesado,
irrelevante o débil.

d. Estilo y coherencia. Estos trabajos están organizados sin demasiado rigor o


contienen errores notables de uso, gramática o tipeo.

Esta calificación es usada para trabajos que son algo más flojos que los trabajos de 6-
4. 5. También un estudiante que escribe su propio ensayo paralelo en un estilo
competente debería recibir un 4.

Estos trabajos son deficientes en dos o más criterios. Típicamente, parafrasean


débilmente el artículo o tienen serios problemas de organización / coherencia. Trabajos
3--2 con serios y repetidos errores de uso, gramática o tipeo deben situarse en este rango.
[Todo este párrafo, como todos los previos, es un descriptor para este punto en la
escala.]
4

Rúbricas y Estándares

Una rúbrica también depende de los estándares. Un estándar especifica que tan bien deben
cumplirse los criterios. Por ejemplo, un estándar para salto alto especifica con precisión qué tan
alto debe ser el salto para ser considerado excelente. ¿Qué tan exitoso fue el estudiante en
cumplir el criterio de sortear la barra? Esa es la pregunta que responden los estándares. El
mero hecho de pasar por encima de la barra –el criterio- no es suficiente si la barra está muy
baja y el estudiante quiere saltar a nivel competitivo. Un estándar para salto alto se establece
típicamente en términos de las alturas específicas que deben saltarse para calificar para un
campeonato o de las marcas alcanzadas en el pasado por los mejores en la disciplina; por lo
tanto, el estándar se basa en patrones de desempeño real e instancias de desempeño ejemplar.

Estándares Absolutos y Estándares de Desarrollo

Como se indicó en el Capítulo Cinco acerca de la lógica del diseño de tareas de evaluación, los
estándares de desempeño se establecen una vez que el logro a alcanzar está claramente
definido y que se han establecido criterios apropiados en relación a dicha meta. Los criterios se
infieren de la meta, pero los estándares se seleccionan para representar la excelencia en el
desempeño, usando desempeños ejemplares y especificaciones apropiadas.

El ejemplo del salto alto ilustra solamente un sistema de evaluación sí/no. La cocina ofrece un
ejemplo que también es simple, pero más cercano a los múltiples niveles de evaluación que
caracterizan a la actividad académica. Los criterios para cocinar pasta primavera, por ejemplo,
probablemente se relacionan con cosas como el buen sabor y la presentación, pero podemos
decidir que importa también que sea saludable en términos del contenido de grasa y colesterol.
De estos tres criterios –sabor, presentación y salud- podemos desarrollar tres rúbricas
separadas para juzgar el plato de pasta. Ahora supongamos que los espaguetis y los vegetales
están ordenadamente dispuestos en el plato (buena presentación) y parcialmente cubiertos por
un círculo de salsa de bajas calorías pero gustosa (saludable y de buen sabor). Hemos cumplido
con los tres criterios.

Supongamos ahora que nuestro plato cumple con los estándares “locales” de nuestra esposa e
hijos. Pero quizás estos estándares locales no son lo suficientemente altos. ¿Cómo sería
evaluado nuestro plato en un restaurante? ¿O por un crítico de restaurantes? El crítico,
justamente, usaría estándares más exigentes para valorar los tres criterios, que los que
aplicaría la mayoría de las familias. Si el espagueti está cocido, pero no realmente “al dente”; si
la presentación es prolija pero no excepcionalmente interesante; y así en otros aspectos, el
plato puede cumplir e incluso exceder las expectativas familiares, pero resultar totalmente
insatisfactorio en un restaurante de cuatro estrellas. La importancia relativa de cada criterio
puede además cambiar cuando pasamos del contexto de la cena familiar, a la comida en un
restaurante: la apariencia importa enormemente en un buen restaurante pero es menos
importante en una comida familiar.

Consideremos ahora una evaluación de escritura. Los criterios a cumplir normalmente refieren a
la claridad de la prosa, a la efectividad de lo dicho, al análisis en profundidad y cosas por el
estilo, y hay indicadores concretos para estos criterios, como no usar el lenguaje coloquial,
5

emplear imágenes y analogías vívidas o usar la voz pasiva lo menos posible. Sin embargo, como
en el ejemplo del espagueti, hay diferentes grados de cumplimiento de estos criterios. Los
estudiantes cumplen o no los criterios en el continuo de una escala que va de lo óptimo a lo
incompleto. Las diferencias en sus logros constituyen diferentes niveles de desempeño, que son
los puntos de la escala. Estos niveles de desempeño pueden ser valorados en relación con
contra dos tipos distintos de estándares y en relación con diferentes expectativas.

Los estándares absolutos (el tipo en que me he estado enfocando hasta ahora, como
desempeños modelo y ejemplares), se establecen de hecho a través de la descripción del
puntaje más alto en la rúbrica y, por tanto, a través de las muestras específicas de trabajo,
elegidas para “anclar” la rúbrica a un estándar de excelencia. En general necesitamos describir
los estándares absolutos, para llegar luego a otro conjunto de estándares que permitan
manejarse con las realidades del desarrollo. Por ejemplo en los deportes, además de los
modelos del mejor desempeño a los que todos apuntan, están los estándares para las
Olimpíadas, para la universidad, para los equipos del secundario, para los equipos escolares y
demás. Cada uno de estos estándares apunta a qué es un desempeño excelente para el mejor
de esa cohorte.

Una expectativa es otro problema. En lugar de buscar el mejor de la cohorte, se busca el patrón
de desempeño anterior de un grupo o individuo –esto es, las normas-. Puede esperarse que un
estudiante salte un metro y medio o más, o que escriba una redacción en el nivel 4 o superior,
porque históricamente la gente de su nivel de experiencia y habilidad lo ha hecho.

Los resultados referidos a normas y expectativas difieren en significado de los resultados


referidos a estándares y criterios. Los estudiantes pueden superar las normas y expectativas
pero, aun así, no lograr un desempeño que cumpla el estándar. Por ejemplo, podría decirse que
los estudiantes en el percentil 89 de un test normativo se han desempeñado pobremente, si se
los compara con un estándar. Es por esto que muchos educadores desconfían de las pruebas
referenciadas por normas: no muestran cómo se están desempeñando los estudiantes y
profesores cuando se los evalúa con estándares exigentes y valiosos.

Es crucial ser conciente de las diferencias de significado entre estos términos, no solo para
diseñar tareas y rúbricas de evaluación efectivas sino, además, para que las devoluciones sean
lo más claras posible. Necesitamos distinguir cuándo estamos hablando de estándares o
modelos del mejor desempeño, cuándo estamos hablando de estándares de desarrollo y
cuándo estamos hablando de expectativas. Cuando decimos que un desempeño está “conforme
con el estándar”: ¿queremos decir “aceptable” o “ejemplar”?; ¿en un grado o cohorte en
particular?; ¿estamos tratando con estándares de desarrollo en grados o cohortes para poder
evaluar el progreso de los estudiantes de principiantes a expertos? En la escritura, por ejemplo,
hay estándares profesionales de nivel internacional establecidos por autores publicados, hay
estándares de nivel de salida del secundario (incluyendo estándares mínimos de aceptabilidad),
y hay estándares de nivel de grado. En cada caso, sin importar qué tan pequeño o amplio sea
el marco de referencia, el estándar absoluto es establecido por los mejores desempeños –los
ejemplares-. Por ejemplo, “cero defecto por cada millón de partes” es un estándar de ingeniería
que quizás nunca se alcance, pero sigue siendo la meta. El mejor desempeño real, el ejemplar,
en la industria automotriz, es de aproximadamente seis defectos por millón.
6

Los estándares absolutos y los criterios se mantienen estables; los estándares de desarrollo
varían de acuerdo al nivel de experiencia y al contexto.

En el trabajo cotidiano en las escuelas, el lenguaje de las rúbricas es, usualmente, algo
ambiguo. Los mejores trabajos deben ser “persuasivos”, “organizados” y “sólidos”. Pero estas
frases no insinúan ni apuntan hacia un estándar específico.

Es aquí donde entre en escena la importancia de las muestras de trabajos. La rúbrica es


necesaria pero no es suficiente para una buena evaluación y una buena devolución. Para saber
qué significa realmente el lenguaje de las rúbricas, tanto el estudiante como el evaluador
necesitan ver ejemplos de trabajos considerados “persuasivos” u “organizados”. ¿Por qué?
Porque la percepción del estudiantes sobre qué significa cumplir esos criterios y estándares,
puede ser incorrecta.

¿Por qué necesitamos distinguir entre estándares absolutos, estándares de desarrollo y


expectativas, en lugar de continuar haciendo lo que siempre hicimos –poner notas o puntajes
basados en nuestros juicios sobre la excelencia-? Porque las normas y patrones locales no son
confiables como estándares. Puede que el mejor trabajo que una maestra normalmente ve de
sus niños, sea mediocre comparado con el trabajo de los estudiantes de otras escuelas o
regiones. Entonces, ¿cómo nos aseguramos que los estándares locales sean válidos? ¿Cómo
podemos proteger al estudiante, asegurándole que los trabajos que localmente obtengan alto
puntaje –el estándar local- son realmente excelentes? No podemos, a menos que logremos
establecer una relación entre los estándares locales (a través de muestras o correlaciones) y
estándares regionales o nacionales.

Un ejemplo concreto de las diferencias entre los criterios y los diferentes tipos de estándares,
aparece en la rúbrica en la figura 7.2. ¿Se puede decir, a partir de los criterios de esta rúbrica,
si debería ser utilizada para evaluar la capacidad de resolver problemas de los estudiantes de
un curso de matemática avanzada o para evaluar trabajos de aritmética de los estudiantes de
quinto grado de primaria?

Como ilustra esta rúbrica, los criterios de evaluación en matemática serán más o menos los
mismos para los diferentes grados, pero los estándares de desarrollo y nuestras expectativas
deberán ir cambiando en forma apropiada. Si usamos trabajos de cálculo sofisticado como
único estándar, ningún estudiante de aritmética obtendrá, probablemente, una calificación
superior a 1 (no porque no sepan cálculo, sino porque su capacidad para resolver problemas
será relativamente reciente y limitada, en términos comparativos), aunque el criterio sigue
siendo el mismo: resuelve el problema con lógica y elaboración claras y apropiadas. A la
inversa, si decimos que un trabajo excelente en quinto grado es el único estándar, entonces
todos los estudiantes de matemática avanzada, salvo algunos muy incompetentes o
descuidados, obtendrán un 6 o un 5.
7

Figura 7.2. Rúbrica para Problemas Matemáticos Abiertos

Competencia Demostrada

Da una respuesta completa con una explicación clara, coherente, no ambigua y


elegante; incluye un diagrama claro y sencillo; se comunica efectivamente con
Respuesta Ejemplar: la audiencia estipulada; muestra comprensión de las ideas y procesos
Puntaje = 6 matemáticos involucrados en el problema; identifica todos los elementos
importantes del problema; puede incluir ejemplos y contra-ejemplos; presenta
fuertes argumentos de apoyo.

Da una respuesta bastante completa con explicaciones razonablemente claras;


puede incluir un diagrama apropiado; se comunica efectivamente con la
Respuesta Competente:
audiencia estipulada; muestra comprensión de las ideas y procesos
Puntaje = 5
involucrados en el problema; identifica los elementos más importantes del
problema; presenta sólidos argumentos de apoyo.

Respuesta Satisfactoria

Completa el problema satisfactoriamente, pero la explicación puede ser


Con Errores Menores Pero
confusa; la argumentación puede ser incompleta; el diagrama puede ser
Satisfactoria:
inapropiado o poco claro; comprende las ideas matemáticas subyacentes; usa
Puntaje = 4
las ideas en forma efectiva.

Comienza el problema apropiadamente pero puede no lograr completarlo u


omitir partes significativas del problema; puede no lograr mostrar una
Con Errores Serios Pero
comprensión completa de las ideas y procesos matemáticos implicados; puede
Casi Satisfactoria:
cometer errores de cálculo serios; puede hacer mal uso o no lograr usar
Puntaje = 3
términos matemáticos; la respuesta puede reflejar una estrategia inapropiada
para resolver el problema.

Respuesta Inadecuada

Comienza, Pero Falla en La explicación no es comprensible; el diagrama puede no ser claro; no muestra
Completar el Problema: comprensión de la situación planteada en el problema; puede cometer errores
Puntaje = 2 de cálculo importantes.

Incapaz de Comenzar Las palabras usadas no reflejan el problema; los dibujos distorsionan la
Efectivamente: situación planteada en el problema; no logra indicar qué información es
Puntaje = 1 apropiada.

No hay Intento:
Puntaje = 0

Por tanto, necesitamos tanto estándares de desarrollo como estándares absolutos, para educar
a los estudiantes sobre la excelencia real. El valor de anclar el trabajo en estándares absolutos
es fácil de ver cuando las rúbricas son longitudinales, o de desarrollo, y los criterios de las
rúbricas se articulan con los estándares de desarrollo, como en el ejemplo de la Figura 7.3.

Obviamente no hay ningún problema con estar en un nivel bajo en una rúbrica de desarrollo, si
el estudiante es principiante; sin embargo, si el estudiante tiene años de experiencia pero sigue
desempeñándose como principiante, debería esperarse un desempeño mejor. Por ejemplo, no
tiene sentido decir que principiantes en Alemán I deben obtener notas bajas porque no tienen
tanta fluidez como los estudiantes Alemán IV. (Esta idea es crucial para el argumento de no
traducir los puntajes de desempeño a calificaciones con letras, ver Capítulo Nueve.)
8

Figura 7.3 Rubrica del desarrollo de niveles de habilidades de lectura de K-12

Nivel El alumno debería ser capaz de:


1 Usar imágenes, símbolos o letras aisladas, palabras o frases, para comunicar significados.

Producir, en forma independiente, piezas de escritura utilizando frases completas, algunas con letras
2
mayúsculas, puntos o signos de pregunta.

Estructurar secuencias de eventos reales o imaginarios en forma coherente y cronológica.

Escribir historias que muestren comprensión de los rudimentos de la estructura de una historia,
estableciendo un comienzo, personajes y uno o más eventos.

Producir escritura simple, coherente y no cronológica.

Producir, en forma independiente, piezas de escritura utilizando frases completas, principalmente


3
distinguidas con letras mayúsculas, puntos o signos de pregunta.

Desarrollar la escritura cronológica, comenzando a utilizar un rango de conjunciones de frases más


amplio que “y” y “entonces”.

Escribir historias más complejas, con detalles más allá de los eventos simples, y con finales definidos.

Comenzar a revisar y reescribir, consultando al educador u otros niños, prestando atención al


significado y la claridad, además de revisar cosas como el uso correcto de los tiempos y pronombres.

Producir piezas de escritura en las que haya un intento rudimentario de presentar los temas de modo
4 estructurado (título, párrafos, versos), en los que la puntuación sea generalmente precisa, y en los que
exista evidencia de la habilidad de hacer que el significado resulte claro a los lectores.

Escribir historias que tengan un comienzo, espacio, personajes, una serie de eventos y una resolución.

Organizar en forma ordenada la escritura no-cronológica.

Comenzar a utilizar algunas estructuras de oraciones diferentes de aquellas más características del
lenguaje hablado (por ejemplo, las oraciones subordinadas).

Intentar revisar independientemente la propia escritura y hablar sobre los cambios realizados.

Escribir en variedad de formatos (notas, cartas, instrucciones, historias, poemas) para un rango de
5 propósitos distintos (para planear, informar, explicar, entretener, expresar actitudes o emociones).

Producir piezas de escritura en las que haya un intento más exitoso de presentar un tema simple de
modo estructurado, por ejemplo, a través de la composición, títulos, párrafos, en que la puntuación sea
usada casi con precisión, y en que los usos simples de la coma se dominen exitosamente.

Escribir en inglés estándar (excepto en contextos donde las formas no estándar sean apropiadas) y
mostrar una diferenciación creciente entre el lenguaje escrito y el oral, por ejemplo, utilizando
construcciones que disminuyan la repetición.

Reunir ideas en papel… y mostrar algo de habilidad para realizar un borrador a partir de ellas y luego
reescribir o revisar lo que sea necesario.

Escribir en variedad de formas de un rango de propósitos, mostrando algo de habilidad para presentar
6 el tema en cuestión de modo diferente para diferentes audiencias específicas.

Hacer uso de las características de los estilos literarios, como la alteración del orden de las palabras
para hacer énfasis o la repetición ex profeso de palabras o patrones de oración.

Mostrar algo de habilidad para reconocer cuando la planificación, escritura del borrador, reescritura del
borrador y revisión son apropiadas y poder realizar estos procesos.
9

Continuación
Producir piezas de escritura bien estructuradas, algunas de las que manejan temas más demandantes,
7 como ser el ir más allá de la experiencia de primera mano.

Hacer un uso más seguro y selectivo de un rango más amplio de posibilidades gramaticales y léxicas,
de acuerdo al tema y la audiencia.

Mostrar una conciencia creciente de que el primer borrador es maleable, por ejemplo, cambiando la
forma en que se escribe (de la historia al juego), o alterando las oraciones, estructura y posición.

Escribir, en extensión apropiada, en una amplia variedad de formas, con sentido asegurado de
propósito y audiencia.

Organizar temas complejos clara y efectivamente. Producir piezas bien estructuradas en las que las
relaciones entre párrafos sucesivos se señalen amablemente.

Hacer un uso seguro, selectivo y apropiado de un amplio rango de construcciones gramaticales de


vocabulario extenso. Mantener el estilo elegido consistentemente. Lograr efectos afortunados o
sorprendentes, mostrando evidencia de un estilo personal.

Escribir, con una longitud apropiada, en una amplia variedad de formatos, con un firme sentido del
propósito y la audiencia.
Organizar temas y materias complejas de manera clara y efectiva. Producir piezas de texto bien
estructuradas, en las que las relaciones entre los sucesivos párrafos están señaladas de manera
8
amigable.
Hacer un uso seguro, selectivo y apropiado de una amplia gama de construcciones gramaticales y de
un vocabulario extenso. Sustentar de manera consistente el estilo elegido. Lograr efectos elogiosos o
sorprendentes, mostrando evidencia de un estilo personal en la escritura.

Diseño de Rúbricas

Las mejores rúbricas seguirán una lógica. Esto significa que, aunque no hay una receta
establecida para construir rúbricas, necesitamos un método útil (aunque no rígido) y
lineamientos; más importante todavía, necesitamos criterios para revisar constantemente la
efectividad del trabajo de diseño que se está llevando a cabo. Los lineamientos del diseño son
como el itinerario de un viajero; los criterios son como las condiciones que el viajero debe
cumplir para tener un viaje que valga la pena. En términos educacionales, los lineamientos son
como las instrucciones que se dan a los estudiantes para realizar una tarea y los criterios son
como la rúbrica que el educador proporciona a los estudiantes para su auto-evaluación y auto-
ajuste a lo largo del camino.

Las rúbricas facilitan la autoevaluación de los estudiantes. Pero la autoevaluación es un medio.


¿Para qué fin? Para el auto-ajuste y el logro de un mejor desempeño y pericia. Ningún
desempeño puede dominarse simplemente siguiendo reglas, itinerarios o recetas. Todo
desempeño complejo se alcanza a través de la devolución, referida a criterios y estándares. La
pregunta, ¿llegamos a nuestro destino?, es muy diferente de preguntarse, ¿intentamos tener un
viaje agradable? Aprender requiere devoluciones permanentes (a través de la evaluación y la
autoevaluación), para asegurar que el estudiante obtenga del viaje el impacto que se propuso
el director del paseo (el docente). De la misma manera, una rúbrica diseñada para valorar el
desempeño de un estudiante debe ser diseñada en referencia a criterios y estándares, y a la
autoevaluación y autoajustes continuos.

Al diseñar rúbricas necesitamos considerar los tipos de rúbricas disponibles. Las rúbricas
pueden ser holísticas o analíticas. La rúbrica holística tiene un solo descriptor general del
10

desempeño como un todo. La rúbrica analítica contiene múltiples rúbricas que corresponden a
cada dimensión del desempeño que está siendo calificado. Por ejemplo, podemos tener
diferentes rúbricas para “sintaxis”, “foco” y “expresión” al escribir, y para “precisión de los
cálculos” y “comprensión del método científico” en la ciencia.

Las rúbricas también pueden ser genéricas, o específicas para un género, un tema o una tarea.
Una rúbrica genérica juzga un criterio muy amplio, como “persuasivo” o “preciso”. Una rúbrica
específica de género se aplica a un género de desempeño específico, al interior de una
categoría de desempeño amplia (por ejemplo, ensayo, discurso, narrativa o gráficas y cuadros).
Una rúbrica específica para un tema tiene criterios referidos a las habilidades relacionadas con
los contenidos o al conocimiento (por ejemplo, informe oral de historia o razonamiento
matemático). Las rúbricas específicas para una tarea refieren a criterios únicos o altamente
específicos, derivados de una tarea en particular.

Finalmente, una rúbrica puede enfocarse en un evento o ser longitudinal. En una rúbrica
enfocada en un evento, el desempeño se describe en términos particulares para esa tarea,
contenido y contexto. Una rúbrica longitudinal (o de desarrollo) mide el progreso a lo largo del
tiempo hacia un dominio más general de objetivos educacionales (por ejemplo, capacidad de
lectura o fluidez); el desempeño se evalúa en un continuo que va de principiante a experto y los
avances se miden en términos de sofisticación o nivel de desempeño a lo largo del tiempo.

Asegurando la validez de las rúbricas

Recordemos que el aspecto principal de la validez es la cuestión de determinar qué es posible y


razonable inferir a partir de los puntajes o calificaciones. Supongamos que se asigna a los
estudiantes una tarea de escritura de cuentos y la rúbrica para evaluar esta tarea pone el
énfasis exclusivamente en la ortografía y en la exactitud gramatical. Las calificaciones o
puntajes podrían ser muy precisos –porque es fácil contar estos errores-, pero conducirían a
inferencias no válidas acerca de la habilidad de los estudiantes para escribir historias. No parece
razonable suponer que la precisión ortográfica esté relacionada con la habilidad para escribir un
cuento atractivo, vívido y coherente, que es lo que esta tarea pretende. Por lo tanto, la rúbrica
estaría valorando con precisión algo que no es lo que queremos evaluar.

El diseño de rúbricas, por tanto, debería considerar no sólo la validez y lo apropiado de la tarea
propuesta, sino la validez y lo apropiado de los criterios y los descriptores para establecer
distinciones en relación a esa tarea.

Suponiendo que tenemos una tarea válida y las capacidades que ella requiere, ¿se enfoca la
rúbrica en criterios que evalúen dichas capacidades? Suponiendo que hemos logrado definir los
criterios más apropiados para el objetivo propuesto, ¿han sido identificadas las dimensiones
más importantes y reveladoras del desempeño?

¿La rúbrica ofrece un modo auténtico y efectivo de distinguir entre niveles de desempeño? Los
descriptores para cada nivel de desempeño, ¿están suficientemente basados en muestras reales
de desempeño de diferente calidad? Estas y otras preguntas son el núcleo de la construcción de
rúbricas válidas.
11

Rúbricas holísticas y analíticas

La habilidad de diseñar una rúbrica válida depende mucho de cómo se definen los criterios.
Para comenzar, ¿cuántos criterios pueden necesitarse para describir los rasgos centrales para el
desempeño exitoso de la tarea? Los criterios nos dicen qué buscar para distinguir logro de no-
logro; los rasgos nos dicen dónde buscarlo.

Por ejemplo, “peso” e “índice de colesterol” son rasgos personales; “peso saludable” y
“colesterol bajo” son criterios para la salud. El criterio supone valoraciones: hay un rango de
masa corporal mínima y máxima para ser considerado saludable, y hay cifras por encima de las
cuales se considera que la persona tiene un índice demasiado alto de colesterol. Pero si
cambiamos el criterio a “ser feliz comiendo”, el valor del rango de colesterol aceptable puede
cambiar. Para cumplir el criterio de tener un buen estado de salud, debo al menos cumplir con
los criterios establecidos para estos dos rasgos de mi perfil de salud.

Una rúbrica analítica aísla cada rasgo principal en una rúbrica separada junto con sus propios
criterios. A la inversa, una rúbrica holística da una valoración única basada en una impresión
general. Pero generalmente es necesario que las rúbricas analíticas combinen diferentes rasgos
para hacerlas factibles y aplicables. Por ejemplo, expresión, organización, foco, estructura de
las oraciones, elección de palabras, coherencia, precisión del contenido, adecuación de los
recursos y referencias y capacidad persuasiva, son criterios adecuados para juzgar los ensayos.
Pero usar 10 rúbricas con los criterios que las acompañan, superaría incluso a un devoto de las
rúbricas. Por cuestiones prácticas, los 10 rasgos podrían agruparse en tres rúbricas: calidad de
las ideas y argumentos, calidad de la escritura y calidad de la investigación, por ejemplo. O, en
ciertas instancias, pueden unirse en un único criterio y rúbrica: ¿Se trata de un trabajo
persuasivo? En este caso, los criterios correspondientes a cada uno de los grandes
encabezados, podrían servir como indicadores.

La aproximación holística puede parecer más simple, pero puede también comprometer la
validez, confiabilidad y calidad de la devolución al estudiante en nombre de la eficiencia.
Volvamos al ejemplo de la comida. La presentación es independiente del gusto y de lo
saludable que sea el alimento, y cada una debe evaluarse por separado si queremos hacer
inferencias válidas de los resultados. Es raro que los tres aspectos vayan en la misma línea,
estando a la vez todas bien o todas mal. Consideremos la confusión que puede resultar de una
rúbrica holística para un desempeño complejo. Dos trabajos son evaluados como no
persuasivos, pero sus defectos son bastante diferentes. Uno es un texto desordenado, pero
lleno de buenos argumentos. El otro es claro, pero superficial y basado en hechos imprecisos.
Con una rúbrica holística se asignaría la misma calificación a ambos trabajos. La validez y la
calidad de las devoluciones requieren el uso de rúbricas analíticas.

A veces no resulta claro como calificar con un esquema holístico. La rúbrica de evaluación de
una presentación oral en la figura 7.4 ilustra el problema. ¿Qué deberíamos hacer si un
estudiante establece un buen contacto visual pero no logra convencer acerca la importancia de
su tema? La rúbrica nos haría creer que hacer contacto con la audiencia y argumentar sobre la
12

importancia del tema siempre van de la mano. Pero la lógica y la experiencia sugieren lo
contrario.

La confiabilidad también se ve amenazada cuando diferentes jueces aplican inconscientemente


diferentes criterios, formándose un juicio impresionista completo usando una rúbrica holística
vaga. Esto es lo que ocurre cuando tanto dos alumnos la misma calificación en un curso, pero
por motivos muy diferentes. Ninguno lo sabe, salvo el educador –y, ciertamente, no lo sabe
quien lee la escolaridad de los alumnos-. Un mismo profesor puede dar a los mismos
estudiantes calificaciones diferentes por cambios en su razonamiento o criterios. Las rúbricas
específicas, basadas en criterios claros, distintos y adecuadamente sopesados, sin embargo,
mantienen el proceso de puntuación consistente y estable, tanto para los estudiantes como
para los evaluadores.

Figura 7.4 Rúbrica Holística para una Presentación Oral

El estudiante describe claramente la cuestión estudiada y provee razones fuertes para


justificar su importancia. Aporta información específica para apoyar las conclusiones
obtenidas y descriptas. La presentación es atractiva y la estructura de las frases es
consistentemente correcta. Se hace contacto visual con la audiencia y se mantiene a lo
5- Excelente
largo de la presentación. Hay fuerte evidencia de preparación, organización y
entusiasmo por el tema. Se utiliza apoyo visual para hacer la presentación más efectiva.
Las preguntas de la audiencia son respondidas correctamente con información
específica y apropiada.

El estudiante describe la cuestión estudiada y provee razones para justificar su


importancia. Aporta una cantidad adecuada de información para apoyar las conclusiones
4 - Muy
obtenidas y descriptas. La presentación y la estructura de las frases es generalmente
buena
correcta. Hay evidencia de preparación, organización y entusiasmo por le tema. Se
utiliza apoyo visual. Las preguntas de la audiencia son respondidas con claridad.

El estudiante describe la cuestión estudiada y las conclusiones son expuestas, pero la


información que las apoya no es tan fuerte como en los casos 4 y 5. La presentación y la
3 - Buena estructura de las frases es generalmente correcta. Hay ciertos indicios de preparación y
organización. Se menciona el apoyo visual. Las preguntas de la audiencia son
respondidas.

El estudiante expone la cuestión estudiada pero no la describe completamente. No


ofrece conclusiones para responder la pregunta. La presentación y la estructura de las
2 - Limitada frases es comprensible, pero con algunos errores. Falta evidencia de preparación y
organización. El apoyo visual puede no ser mencionado. Las preguntas de la audiencia
son respondidas, pero solo con la respuesta básicas.

El estudiante realiza la presentación sin exponer cuál fue la pregunta o su importancia.


El tema no es claro y no se exponen conclusiones adecuadas. La presentación es difícil
1- Pobre
de seguir. No hay señales de preparación u organización. Las preguntas de la audiencia
reciben la respuesta más básica o quedan sin responder.

0 No se intenta realizar ninguna presentación oral.


13

La figura 7.5 muestra una rúbrica analítica que contiene un grupo de cuatro rúbricas para
evaluar distintos aspectos de la investigación científica y la resolución de problemas. Abrir la
rúbrica en rasgos no solo hace a la evaluación más precisa, sino que además enseña a los
estudiantes acerca de los resultados deseados.

Figura 7.5 Rúbrica analítica para experimentos de ciencias de quinto grado

Diseño del Experimento Resultados científicos


El reporte explica con claridad convincente
El diseño muestra que el estudiante ha analizado el
la solución al problema. Se utiliza
4 problema y ha diseñado y conducido un 4
información de otras fuentes u otros
experimento en forma reflexiva e independiente.
experimentos en la explicación.

El diseño muestra que el estudiante comprende la El reporte muestra que el estudiante


3 idea básica del proceso científico, conduciendo 3 comprende los resultados y sabe cómo
experimentos que controlan las variables obvias. explicarlos.

El reporte muestra resultados del


El diseño muestra que el estudiante comprende la
experimento. Las conclusiones alcanzadas
2 idea básica del proceso científico, pero necesita 2
son incompletas o fueron explicadas sólo
algo de ayuda para controlar las variables obvias.
luego de que se le hicieran preguntas.
El reporte muestra resultados del
El diseño muestra que el estudiante puede conducir
experimento. Las conclusiones a que se
1 un experimento cuando recibe una cantidad de 1
llegó fueron insuficientes, incompletas, o
ayuda considerable por parte del profesor.
confusas.

Recolección de datos Expresión Verbal


La exposición presenta un punto de vista
Los datos fueron recogidos y registrados de modo claramente definido que puede ser apoyado
4 ordenado, reflejando con precisión los resultados 4 por la investigación. El interés de la
del experimento. audiencia fue considerado, ya que hubo
gestos, expresión y contacto visual.
La exposición fue preparada con algo de
Los datos fueron registrados de un modo que ayuda adulta, pero utiliza los resultados del
3 probablemente representa los resultados del 3 experimento. El discurso fue lógico y utilizó
experimento. gestos, expresión y contacto visual para
clarificar significados.
La exposición fue dada luego de instrucción
Los datos fueron registrados de modo activa por parte de un adulto. Se dio alguna
2 2
desorganizado, o sólo con asistencia del profesor. consideración fue dada a los gestos, la
expresión y el contacto visual.
Los datos fueron registrados de modo incompleto,
La exposición fue dad después de recibir
1 caótico o sólo luego de considerable asistencia del 1
instrucción activa de un adulto.
profesor.

Rúbricas para el dominio de los contenidos

Hoy parecería que la mayoría de los educadores prefieren enfocarse en la evaluación de


habilidades genéricas en lugar de enfocarse en la comprensión de los temas específicos de cada
materia. Ciertamente, es más fácil evaluar las habilidades académicas generales y los
resultados pueden generalizarse con mayor facilidad: hablar es hablar, después de todo, incluso
si el contenido del discurso varía. Mientras tanto, entender que F = m x a , no tiene vinculación
con entender las leyes de Boyle o el concepto de la ironía dramática. La compresión debe ser
evaluada por separado para cada concepto enseñado.
14

Más importante aún, pocos profesores o evaluadores han explorado suficientemente la


pregunta sobre, por ejemplo, ¿qué sirve como evidencia de que ha comprendido F = m x a , y
no se está utilizando la fórmula mecánicamente, insertándola sin entenderla, en los típicos
problemas y ejercicios de los libros de texto? ¿Cómo debemos distinguir la comprensión
superficial de la sofisticada o profunda?

En general, lo único que se evalúa es el conocimiento y la aplicación de una fórmula. Pero es


posible distinguir niveles de comprensión, siguiendo la regla básica que a continuación se
enuncia: “si tenemos muestras de trabajo que representan un rango de desempeños, podemos
desarrollar rúbricas”.

Por supuesto, para hacerlo bien necesitamos superar nuestra tendencia tradicional a pensar en
términos dicotómicos (respuestas correctas o incorrectas) cuando lidiamos con contenidos
específicos de la materia. Es fácil pensar la evaluación del conocimiento que tienen los
estudiantes en términos de precisión de los hechos y aplicación de los mismos. Sin embargo,
una vez que consideramos que la comprensión se desarrolla a lo largo del tiempo, y
comenzamos a utilizar términos como “profundidad de la comprensión”, podemos hablar de
grados de comprensión de un tema. Podemos graficar el progreso en la comprensión del
estudiante en una escala que va de la “comprensión simple y superficial” en un extremo, a la
“comprensión profunda y sofisticada” en el otro.

Rúbricas genéricas vs. rúbricas específicas para cada tarea

Enfrentamos muchas opciones cuando diseñamos rúbricas y descriptores. Una de ellas es si


utilizar rúbricas genéricas o rúbricas específicas para una tarea. La confiabilidad aumenta
cuando utilizamos una rúbrica que es específica para cierta tarea, y muestras de desempeño
relacionadas con esta tarea. Sin embargo, seguimos teniendo un problema de viabilidad: el
diseño de una rúbrica para cada tarea, resulta prohibitivo en términos del tiempo y energía
requeridos. Y podemos perder de vista nuestro objetivo final.

Una evaluación sólida requiere el uso de un conjunto general de rúbricas analíticas. Los criterios
en relación con los cuales evaluamos el desempeño son más importantes que (y, lógicamente,
previos a) el diseño de cualquier tarea específica. Y los criterios se relacionan con las metas
generales a lograr, lo que tiende a ser más amplio que cualquier tarea específica que utilicemos
en la evaluación. Es preferible, entonces, utilizar rúbricas generales que se enfoquen en
criterios clave relacionados con las metas clave. Por ejemplo, una rúbrica para evaluar la
habilidad de un estudiante para “argumentar persuasivamente” y “comprender el contenido
principal de un texto”, puede ser aplicable tanto para trabajos escritos y como para exámenes
orales.

Si una rúbrica general, aplicada a una tarea específica, sacrifica notoriamente la especificidad
de la devolución que se hará al estudiante, podemos emplear la opción intermedia antes
planteada: utilizar criterios generales que no varíen de una tarea a otra y utilizar indicadores
específicos para definir mejor los criterios, en función de la variación de las tareas concretas y
de lo que la resolución de las éstas requieran.
15

Desarrollando las primeras rúbricas – y más allá

Las rúbricas no se diseñan con pura imaginación y discusión. Se derivan de estándares y de


análisis de muestras existentes de trabajos de diferente calidad. Una rúbrica debería reflejar las
diferencias más tangibles y apropiadas de calidad entre los desempeños. ¿De qué otro modo
podríamos validar nuestras evaluaciones? Después de todo, las diferencias de calidad
observables aparecieron primero, y la descripción analítica de esas diferencias, generalizada en
los descriptores de rúbricas, vino en segundo lugar. Si procediéramos de otro modo, estaríamos
adivinando o inventando los criterios y fallaríamos en la validación de nuestro trabajo.

Como dijo Potter Stewart, de la Suprema Corte de Justicia, sobre la pornografía, sabemos que
está allí cuando la vemos, incluso si no podemos definirla. De manera similar, podemos apilar
los trabajos de los estudiantes en montones ordenados por calidad decreciente, pero solo
cuando nos detenemos a mirar en qué difieren estos montones y a explicar cuidadosamente las
diferencias, es que empezamos a tener un sentido claro de cuáles deberían ser los descriptores
para cada pila.

¿Pero qué hacemos el primer año? Debemos hacer lo mejor que podamos, basando nuestra
rúbrica en nuestra experiencia general de las diferencias en el tipo de desempeño que nos
interesa, en cualquier tarea piloto que hayamos realizado y cualquier muestra que tengamos de
desempeños frente a desafíos similares en el pasado. En el comienzo de nuestro trabajo puede
ser necesario depender del lenguaje comparativo y evaluativo. Para una primera rúbrica, puede
ser suficiente con lograr expresar con claridad el nivel más alto de desempeño y luego utilizar el
lenguaje comparativo para describir las debilidades progresivas de los demás niveles de
desempeño. Pero necesitaremos refinar la rúbrica, tan pronto como tengamos más desempeños
para analizar, porque una rúbrica es tan buena como la amplitud y profundidad de nuestra
muestra de desempeños, y tan buena como nuestra capacidad para generalizar los resultados
de ordenar los trabajos de nuestros estudiantes. Cada año trae consigo una muestra más
diversa y reveladora de desempeños posibles y, con ello, una comprensión más profunda de las
diferencias más notorias entre los niveles de desempeño y la sorprendente diversidad de
trabajos posibles dentro de cada nivel.

Esto significa que debemos tener algo de fe en que nuestras muestras de desempeños
ejemplares realmente son ejemplares y en que nuestros criterios se derivan del análisis de la
excelencia, y no solo de ideas abstractas sobre la excelencia. Esta distinción es el núcleo de la
diferencia entre normas y estándares. Si nos basamos solamente en muestras de productos que
son lo mejor que nuestros niños son capaces de hacer, pero no de lo mejor que es posible que
otros estudiantes y personas hagan, corremos el riesgo de estar construyendo rúbricas a partir
de un análisis de lo mediocre y describiendo indicadores de desempeños meramente
aceptables, mientras decimos que son para el nivel más alto de desempeño. Imaginen si, por
ejemplo, construyésemos los criterios para evaluar la expresión musical, a partir de los mejores
desempeños de personas principiantes. Verán entonces el problema que enfrentamos cuando
comenzamos a evaluar utilizando un rango de trabajos pobres de nuestros estudiantes.
16

Las mejores rúbricas dependen de una definición clara y no controversial de desempeños


ejemplares, lograda a partir de muestras de trabajos ejemplares. Luego se desciende en la
escala desde allí.

Resumiendo las Rúbricas

Las mejores rúbricas son aquellas que:

1. Son lo suficientemente genéricas como para relacionarse a las metas generales, más
allá del desempeño en una tarea, pero lo suficientemente específicas como para
permitir obtener inferencias útiles y sólidas sobre la tarea.

2. Discriminan entre la validez de los desempeños en forma no arbitraria, evaluando las


características centrales del desempeño y no solamente aquellas más fáciles de ver,
contar o puntuar.

3. No combinan criterios independientes en una misma rúbrica.

4. Se basan en el análisis de muchas muestras de trabajo y en el rango más amplio


posible de muestras de trabajo, incluyendo ejemplos válidos.

5. Para establecer distinciones, se apoyan en el lenguaje descriptivo (cómo se identifica la


calidad o su ausencia) y no en el lenguaje meramente comparativo y evaluativo, como
“no tan riguroso como” o “excelente producto”.

6. Proveen una diferenciación de niveles útil y adecuada, que permite juicios


suficientemente buenos, pero no usan tantos puntos en la escala (normalmente no más
de seis) como para que la confiabilidad resulte amenazada.

7. Usan descriptores que son lo suficientemente ricos como para permitir a los estudiantes
comprender sus calificaciones, auto-evaluarse y auto-corregirse. (El uso de indicadores
hace que las descripciones sean menos ambiguas y más confiables, brindando ejemplos
de qué reconocer en cada nivel de desempeño. Pero, si bien los indicadores son signos
útiles y concretos de que se cumplen los criterios, los indicadores específicos pueden no
ser confiables o apropiados para todos los contextos).

8. Resaltan la importancia de evaluar el impacto del desempeño (el efecto en función del
propósito) en lugar de sobre-recompensar los procesos, los formatos, los contenidos o
la buena fe del esfuerzo realizado.

Las rúbricas que cumplen los requisitos técnicos son:

1. Continuas: El cambio en calidad de al pasar de un punto de la escala a otro es similar:


la diferencia entre el nivel 5 y el nivel 4 es similar que entre el 2 y el 1. Los descriptores
reflejan esta continuidad.

2. Paralelas: Cada descriptor es paralelo a todos los otros en términos del lenguaje
utilizado en cada frase que define los criterios.

3. Coherentes: Las rúbricas se enfocan en los mismos criterios desde el principio hasta el
fin. Aunque los descriptores para cada punto de la escala son diferentes de los que
están antes y después, los cambios refieren a la variedad de calidad para el criterio
17

(establecido), no hay cambios en el lenguaje que, explícita o implícitamente, introducen


nuevos criterios o modifican la importancia de los distintos criterios.

4. Adecuadamente ponderadas: Cuando se utilizan múltiples rúbricas para evaluar un


evento, hay un adecuado y no arbitrario peso relativo de cada criterio, en relación a los
demás.

5. Válidas: Las rúbricas permiten inferencias válidas sobre el desempeño, al punto de que
lo que se califica es lo central al desempeño, y no lo simplemente es fácil de observar y
puntuar. Las diferencias propuestas en calidad deberían reflejar un análisis de la tarea y
basarse en muestras de trabajo a lo largo de todo el rango de desempeños; describir
las diferencias cualitativas y no cuantitativas entre los desempeños.

6. Confiables: Las rúbricas permiten calificar consistentemente, aún cuando cambien los
evaluadores o pase el tiempo. Permiten una calificación confiable, al punto de que el
lenguaje evaluativo (“excelente”, “pobre”) y el lenguaje comparativo (“mejor que”,
“peor que”), se transforman en lenguaje altamente descriptivo, que ayuda a los
evaluadores a reconocer las características salientes y distintivas de cada nivel de
desempeño.