Beruflich Dokumente
Kultur Dokumente
Evaluación tradicional
Una consideración de los resultados de los programas es una característica integral de muchos
enfoques tradicionales para la evaluación y, hasta la década de 1970, las evaluaciones
educativas se centraron principalmente en evaluar los resultados del programa. El énfasis en
los resultados es más evidente en los enfoques de evaluación orientados a objetivos. Tyler
(1949), por ejemplo, se centró en los objetivos educativos y su medición en el contexto de la
evaluación curricular. Otros enfoques en la tradición tyleriana también dieron importancia a
la especificación de objetivos y juicios sobre el grado en que se podría decir que se lograron
sobre la base de los datos de resultados del programa (por ejemplo, Provus, 1971). Sin
embargo, estos enfoques difirieron de muchos esfuerzos actuales de evaluación de resultados
en los objetivos del programa Unking con respecto a las metas u objetivos de escuelas o
maestros individuales en lugar de los marcos curriculares estatales, mientras que los
resultados no se utilizaron para decisiones importantes o para fines de rendición de cuentas.
Pocas personas estarían en desacuerdo con la opinión de que los resultados de la educación
son importantes. Sin embargo, el acuerdo no estaría tan extendido en cuanto a la importancia
relativa de los resultados, ya que los individuos difieren en sus percepciones de la importancia
que debe darse a la variedad de metas u objetivos que se han propuesto para la escolarización.
A las habilidades de alfabetización y aritmética generalmente se les otorga una importancia
particular, y el uso de información sobre los resultados para tomar decisiones sobre la
efectividad de las escuelas y los maestros, basado en las adquisiciones de estas habilidades
por parte de los estudiantes, se remonta al siglo pasado. Quizás los ejemplos más conocidos
de este enfoque son los esquemas de pago por resultados que se introdujeron en las escuelas
británicas en 1862 para ayudar a mejorar la alfabetización y las habilidades matemáticas de
los estudiantes y la eficiencia de los maestros, al mismo tiempo que ahorran dinero. En estos
esquemas, la asignación de fondos a las escuelas se vinculó con los logros de los estudiantes,
medidos por exámenes escritos y orales en lectura, escritura y aritmética. La responsabilidad
por el fracaso de los estudiantes se colocó sobre los hombros de los maestros.
El crecimiento en el uso de pruebas estandarizadas en este siglo, especialmente en los Estados
Unidos, refleja el interés continuo en los resultados de la educación. El trabajo de Rice (1897)
sobre la ortografía es un ejemplo temprano de evaluación de resultados. La información sobre
los resultados, por supuesto, se ha utilizado para una variedad de propósitos, solo algunos de
los cuales están relacionados con la evaluación de programas o incluso de escuelas. Las
pruebas se utilizaron con mayor frecuencia para evaluar el rendimiento de estudiantes
individuales. Sin embargo, sobre la base de su valor en este contexto, Coleman y Karweit
(1972) propusieron que también podrían usarse para proporcionar medidas del rendimiento
escolar en la evaluación de "entornos educativos".
En las últimas tres décadas, las pruebas estandarizadas se han utilizado cada vez más como
instrumentos de la reforma educativa nacional. Su uso para diagnosticar lo que está mal en
la educación, junto con la atención legislativa que han recibido las pruebas, reflejan un
cambio fundamental en el mundo de la educación oficial, no solo en el propósito para el que
se usan las pruebas estandarizadas, sino también en las percepciones de calidad que tienen.
pasó de una consideración de las instalaciones escolares, los recursos y las condiciones a los
resultados de la escolarización (Madaus y Raczek, 1996). Una ilustración reciente de la
medida en que los resultados se han convertido en una preocupación importante de los
responsables de la formulación de políticas se encuentra en la propuesta del Presidente Bush
para América 2000 (Departamentos de Educación y Trabajo de EE. UU., 1993) que allanó el
camino para la Ley de Educar a América de 1994. Esta legislación propuso que los nuevos
American Achievement Tests deberían formar parte de un paquete de responsabilidad de 15
puntos diseñado para alentar a los padres, las escuelas y las comunidades a “medir los
resultados, comparar los resultados e insistir en el cambio cuando los resultados no son lo
suficientemente buenos” (Objetivos 2000: Ley de Educación de América, 1994). Esta
legislación nunca se implementó y la idea de una prueba nacional "voluntaria" todavía está
en suspenso. No obstante, muchos estados han adoptado las ideas centrales en la legislación
al diseñar sus propios programas de reforma basados en estándares.
La responsabilidad
En los últimos años, la rendición de cuentas ha alcanzado una prominencia creciente en las
administraciones gubernamentales en muchos países. Las medidas para controlar cómo las
partes interesadas cumplen con sus obligaciones se han concebido como un mecanismo para
tratar los problemas que surgen de una serie de fenómenos: el aumento de la demanda de
servicios junto con la disminución de los recursos; una multiplicación de estrategias de
reforma; instrumentos administrativos débiles; y valores y demandas en competencia en
culturas pluralistas. Estas medidas, que se han aplicado a una gama de servicios públicos,
pueden parecer una forma razonable de poner orden en entornos complejos y poco
comprendidos. Se prevé que la información basada en las medidas conduciría al uso de
controles administrativos sobre el uso de insumos para garantizar que se cumplan los
procedimientos especificados. Pero también puede implicar simplemente la identificación de
productos que cumplen con un estándar específico y productos que no lo hacen. Se considera
como una tarea relativamente simple y directa utilizar los datos de una evaluación de
resultados para colocar la responsabilidad del cambio y el ajuste en la persona o institución
identificada como responsable, y para confiar en la operación de un mercado competitivo.
La amenaza o promesa de sanciones para lograr el efecto deseado. En esta situación, la
responsabilidad no está en un administrador para identificar los aspectos deseables de la
implementación o las condiciones que deben cambiarse. Él o ella no tiene que tratar de
entender o explicar por qué algunas personas o instituciones son "efectivas" y otras no. Todo
lo que se necesita es identificar lo efectivo y lo no efectivo, y tener datos estadísticos que
respalden el juicio.
A pesar de los problemas asociados con la evaluación de resultados que se considera a
continuación, los problemas de rendición de cuentas cobran mucha importancia en las
consideraciones de la reforma escolar actual. Por ejemplo, la Ley de Mejoramiento Educativo
adoptada en Tennessee en 1991 creó la necesidad de especificar los medios por los cuales los
maestros, las escuelas y los sistemas escolares podrían ser responsables de cumplir con los
objetivos establecidos para los sistemas educativos de Tennessee. Dado que la atención se
centró en el producto más que en el proceso, se estableció un sistema de evaluación basado
en resultados y se incorporó al Sistema de Evaluación de Valor Agregado de Tennessee
(TVAAS), que forma parte integrante de la legislación (Sanders & Horn, 1994).
Desarrollos tecnicos
La disponibilidad de tecnologías de costo relativamente bajo con capacidades de cómputo
masivas ha ayudado en gran medida al desarrollo, no solo de programas de prueba a gran
escala para obtener datos de resultados, sino también de los sistemas de información
gerencial en general y la planificación logística. La evaluación de resultados se ve facilitada
en gran medida por la capacidad de almacenar grandes cantidades de datos, vincular los datos
recopilados en diferentes momentos y realizar análisis estadísticos sofisticados.
En los Estados Unidos, la Ley de Desempeño y Resultados del Gobierno (GPRA) de 1993
se implementó en octubre de 1997 como respuesta a los informes de desperdicio e
ineficiencia en el gasto gubernamental. Para restablecer la confianza pública en el gobierno,
todas las agencias federales serían responsables de lograr los resultados del programa, la
calidad del servicio, la satisfacción del cliente y de proporcionar al Congreso información
suficiente para mejorar la toma de decisiones. Se requeriría una medición del desempeño y
los datos resultantes se harían públicos. La Oficina de Contabilidad General de los EE. UU.
Y otras agencias (http: // www) prepararon una gama de publicaciones que proporcionan una
relación y una descripción de la medición del rendimiento ("gestión por resultados"), así
como la experiencia en su uso. .reeusda.gov / part / gpra / gpralist.htm).
Se han producido importantes cambios en las agencias gubernamentales siguiendo la
legislación. Por ejemplo, la Agencia de los Estados Unidos para el Desarrollo Internacional
(USAID) ha desarrollado para sus proyectos financiados un "marco de resultados" que
involucra la especificación de metas, objetivos, indicadores con metas periódicas, resultados
intermedios y resultados netos a largo plazo (que representan el efecto de la intervención)
(Toffolon-Weiss, Bertrand, y Terrell, 1999).
La actividad de evaluación fuera de los Estados Unidos no está bien documentada. Sin
embargo, parece razonable decir que el alcance o el rango de las actividades de evaluación
encontradas en los Estados Unidos no se encuentran en otros lugares, a pesar de un aumento
reciente de la actividad de evaluación, o al menos un reconocimiento de su necesidad, en
muchos países. En España, por ejemplo. el gobierno ha respondido a la legislación que
requiere una evaluación después de la acción del gobierno en la contratación de servicios,
creando condiciones para la competencia y planteando el problema de la responsabilidad. La
respuesta refleja una preferencia por los enfoques de evaluación que son compatibles con la
producción de indicadores de control de gestión y son útiles para informar la toma de
decisiones en el proceso de políticas. Por ejemplo, la Oficina Administrativa de los Servicios
de Salud de Cataluña supervisa las poblaciones atendidas, los costos y los productos (por
ejemplo, número de visitas por habitante por día, número y costo de las recetas) (Ballart,
1998).
El uso de la evaluación (generalmente a través de una variedad bastante antigua) también ha
crecido rápidamente en otros países durante los años 80 y 90. En Dinamarca, se prefieren las
metodologías empíricas tradicionales (generalmente encuestas) para proporcionar datos para
el desarrollo político y organizativo, el control, el monitoreo y la modernización (Hansson,
1997). En Francia, se informó sobre el "encaprichamiento generalizado con la evaluación de
políticas públicas" como medio para modernizar el servicio público (Duran, Monnier y
Smith, 1995, p. 45). En Italia, las demandas para producir un marco de evaluación para las
reformas recientes en los servicios de salud (aziettda lizzazione della sanita publica) han dado
lugar a tensiones entre un enfoque centrado en la gestión y otro más orientado a la evaluación
de la eficacia y la calidad. Noruega también parece estar mostrando signos de creciente
entusiasmo por la evaluación, aunque los problemas aún no se han desarrollado con la nitidez
del enfoque observable en los países anglosajones (ver Noticias de la Comunidad,
Evaluación, 1998, 4, 373–379). En la Federación de Rusia, el requisito de un plan de estudios
uniforme en las escuelas se está reemplazando por una mayor autonomía para las autoridades
regionales y las escuelas en conjunto con los planes de estudios basados en resultados
(Bakker, 1999). Aunque las ambiciones de evaluación de muchos países parecen menos que
modestas La realización se ve obstaculizada por la falta de datos, experiencia, instrumentos
y la infraestructura necesaria para la recopilación y análisis de datos a gran escala. Este punto
se ha hecho en relación con el desarrollo de la evaluación en la República Popular China,
donde la evaluación era desconocida hasta principios de la década de 1980, pero ahora se
considera importante en el contexto del desarrollo nacional y el crecimiento económico. Se
están tomando muchas medidas para mejorar la capacidad de evaluación del país (Hong y
Rist, 1997).
Pasamos ahora a las descripciones de los esfuerzos de evaluación de resultados específicos
en educación a nivel estatal (EE. UU.), A nivel nacional e internacional.
Los ejemplos más obvios de evaluación de resultados a nivel nacional son las "evaluaciones
nacionales", que han funcionado en el Reino Unido de una forma u otra desde 1948, en los
Estados Unidos desde 1969 y en Francia desde 1979. La Evaluación Nacional de los Estados
Unidos de El progreso educativo (NAEP) es el modelo de evaluación más ampliamente
informado en la literatura. Es una encuesta en curso, mandatada por el Congreso de los
Estados Unidos e implementado por personal de campo capacitado, generalmente personal
de la escuela o del distrito. La encuesta está diseñada para medir los logros educativos de los
estudiantes en edades y grados específicos e informa el porcentaje de estudiantes con puntaje
en las tres categorías de rendimiento controvertido: "básico", "competente" y "avanzado".
También examina los logros de las subpoblaciones definidas por las características
demográficas y por la experiencia de fondo específica. Con los años, los detalles de la
administración de NAEP han cambiado; por ejemplo, en la frecuencia de evaluación y en el
nivel de grado objetivo. En la actualidad, las evaluaciones se realizan cada dos años en
muestras de estudiantes de los grados 4, 8 y 12. Se han evaluado periódicamente once áreas
de instrucción. Los informes más recientes se han centrado en lectura y escritura,
matemáticas y ciencias, historia, geografía y educación cívica. Los datos han sido reportados
por estado, género, etnia, tipo de comunidad y región.
Las evaluaciones nacionales son ahora una característica de muchos otros sistemas
educativos en todo el mundo, no solo en países industrializados (por ejemplo, Australia,
Canadá, Finlandia, Francia, Irlanda, los Países Bajos, Noruega, Suecia, Nueva Zelanda,
Reino Unido) sino también en países en desarrollo (ver Chinapah, 1997; Greaney y
Kellaghan, 1996). En todas las evaluaciones nacionales se incluye una evaluación del primer
idioma y las matemáticas de los estudiantes en el nivel de la escuela primaria. La ciencia está
incluida en algunos, y un segundo idioma, arte, música y estudios sociales en un pequeño
número. En la mayoría de los países, los datos se recopilan para una muestra de estudiantes
de una determinada edad o nivel de grado, pero en algunos países se evalúa a todos los
estudiantes de la edad o nivel de grado correspondiente (Kellaghan y Grisay, 1995).
Contexto
Metodología
Las metodologías de evaluación de resultados tienen cierta afinidad con los enfoques de
evaluación temprana (década de 1960), que se basaron en gran medida en el positivismo
lógico popperiano, empleando medidas cuantitativas, cadenas deductivas y aspiraciones
hacia la generalización. Si bien los indicadores de resultados en sí mismos no proporcionarán
un conocimiento causal válido, el interés en la causalidad asociada con su uso se evidencia
en los esfuerzos para identificar los correlatos de logros y en los supuestos subyacentes al
uso de técnicas de valor agregado.
Si bien estos aspectos de la evaluación de resultados pueden apuntar a una afinidad con los
puntos de vista tradicionales de la evaluación y, de hecho, de la investigación, también hay
indicios de que la evaluación de resultados se percibe como un género que es distinto de la
evaluación tradicional (véase Blalock, 1999; Pollitt , 1993). Esta conclusión parece
justificada cuando se considera que los gobiernos y los organismos internacionales están
promoviendo el monitoreo de resultados (representado en evaluaciones nacionales y estudios
comparativos internacionales) al mismo tiempo que, e independientemente de, los enfoques
de evaluación más tradicionales (ver, por ejemplo, Comisión Europea, 1997).
En esta etapa, hay poca documentación disponible sobre el uso de las evaluaciones de
resultados en un contexto de políticas. La medida en que la información derivada de tales
evaluaciones entre en el ámbito de las políticas sin duda diferirá de un país a otro,
dependiendo de las tradiciones de gobierno de un país y de la política y la toma de decisiones,
así como de las relaciones que ya se han establecido entre los responsables políticos.
tomadores de decisiones y evaluadores. En la medida en que la metodología de las
evaluaciones de resultados parece cercana a la involucrada en los enfoques cuantitativos
empíricos, con su visión racional del proceso de políticas, se puede esperar que la
información de los resultados se considere exógena al proceso, proporcionando "objetivo",
"neutral" y apolítico. Información a ser utilizada instrumentalmente en políticas y toma de
decisiones. Desde este punto de vista, al igual que en los esfuerzos de evaluación temprana,
el evaluador tiene un papel que desempeñar en la resolución de problemas de políticas, pero
no como un actor en el proceso actual de políticas (Radaelli y Dente, 1996). Esta conclusión
se refuerza cuando consideramos el número de proyectos de evaluación de resultados en los
que a menudo no hay un "evaluador" identificable. De hecho, el término evaluación a menudo
no ocupa un lugar prominente en los discursos sobre las actividades de lo que llamamos
evaluación de resultados. .
Esto no debería sorprendernos, dado el número limitado de objetivos de producción de
información que se consideran relevantes para la evaluación de resultados. De los seis
objetivos identificados por Blalock (1999) que los métodos de evaluación más
convencionales se esfuerzan por cumplir, es probable que la evaluación de los resultados
aborde solo uno: determinar si los resultados de un programa para los clientes (y quizás su
impacto neto) son consistentes con los resultados deseados. - Viene y para mejorar estos
resultados. No es probable que la evaluación de resultados proporcione información sobre
los otros cinco objetivos de Blalock: si las intervenciones de un programa son o no las
previstas; si un programa se está entregando a la población objetivo prevista; si un programa
se está implementando según lo previsto; identificación de las principales influencias que
dan forma a los resultados de un programa; o la adecuación, utilidad y valor social de las
políticas en las que se basa un programa.
La forma en que se predice que funcionará la información de la evaluación de resultados en
algunos sistemas sugiere que el esfuerzo por acomodar la información en la política será leve.
Si, por ejemplo, el propósito principal de proporcionar información sobre los resultados del
desempeño escolar es adjuntarle recompensas o castigos a los distritos escolares, escuelas o
maestros, entonces parecería que hay poca necesidad de reflexionar sobre, o tratar de
entender, cómo Las escuelas funcionan, o lo que se trata de programas que facilitan el
crecimiento de los estudiantes. Tal vez, las preguntas planteadas por estos problemas son
demasiado exigentes y desafiantes para un administrador ocupado. El curso más sencillo es
importar modelos de mercado y dejar que la competencia y el consumidor opten por lograr
la reforma deseada. Sin embargo, mientras se siga este enfoque, muchas preguntas que
tradicionalmente han tenido evaluadores ocupados permanecerán sin respuesta: ¿contribuye
un programa a la mejora, es equitativo, cuáles son las consecuencias no deseadas y a qué
costo se logra el cambio?
EL PAPEL DE LAS PRUEBAS EN LAS EVALUACIONES
A pesar de la amplia experiencia con las pruebas, muchos estadounidenses, incluidos algunos
que regularmente administran y usan las pruebas, se perderían si se les preguntara ese famoso
ensayo extraterrestre, ET, “¿Qué es una prueba? No tenemos estas cosas en mi planeta ". La
confusión de ET podría aclararse con una explicación de cuatro conceptos centrales para la
definición de una prueba:
Una prueba se centra en un dominio particular de interés.
Una prueba es una muestra de comportamiento, productos, respuestas o rendimiento
de ese dominio.
Una prueba le permite al usuario hacer inferencias sobre el dominio más amplio de
interés, y luego, usar esas inferencias para describir, tomar decisiones o determinar
las consecuencias sobre el examinador.
El grado en que las inferencias, descripciones, decisiones o consecuencias específicas
son apropiadas se llama validez.
Dominio de prueba
Una prueba está diseñada para medir un conjunto particular de conocimientos, habilidades,
habilidades o actuaciones que son de interés para el usuario de la prueba. Esta área de interés
se denomina dominio de prueba o universo de prueba. El primer paso para construir una
prueba es definir el dominio, de modo que uno pueda decidir fácilmente si un aspecto
particular del conocimiento, o una habilidad, tarea, habilidad o desempeño en particular cae
claramente dentro del dominio.
Una manera directa, aunque algo simplista, de pensar en el dominio para una prueba de
rendimiento es como un libro de texto o como parte de un libro de texto. Por ejemplo, si un
escritor de pruebas quería construir una prueba de operaciones matemáticas de cuarto grado,
ella podría concebir el dominio de prueba como los capítulos de operaciones de un libro de
texto de matemáticas típico de cuarto grado. El dominio de prueba podría entonces dividirse
en cuatro secciones, llamadas subdominios o facetas, que representan las operaciones básicas
de suma, resta, multiplicación y división. Cualquiera de estos cuatro subdominios podría
especificarse más. Por ejemplo, podríamos limitar la faceta de adición a problemas que
involucran tres dígitos o menos. Los subdominios también podrían dividirse en problemas de
computación numérica y problemas de palabras. Una vez que estemos satisfechos con la
especificación del dominio, se puede construir una prueba para evaluar el dominio completo
de la aritmética de cuarto grado, o alguna faceta de la misma.
El ejemplo aritmético anterior representa un contenido o dominio de logros
comparativamente simple en educación. No todos los dominios de prueba se pueden definir
tan fácilmente, y mucho menos se pueden dividir de manera tan clara en subdominios o
facetas. Además, por supuesto, los dominios de prueba no se limitan a áreas académicas o
curriculares. Un dominio de prueba podría centrarse en habilidades relacionadas con el
trabajo para una ocupación particular, por ejemplo, o en uno de una amplia gama de rasgos
más abstractos como inteligencia, motivación, honestidad, competencia docente, aptitud
musical, capacidad de resolución de problemas matemáticos. , o desviación psicopática.
Definir el dominio de prueba para un rasgo abstracto es necesariamente una tarea más
espinosa que especificar el contenido de un libro de texto típico.
El concepto del dominio de prueba es relevante para las evaluaciones de dos maneras
importantes. Primero, con demasiada frecuencia la gente no pregunta si el dominio es el
correcto para los usos a los que se aplicará la prueba. Por ejemplo, imagine una prueba de
ciencias estandarizada de tercer grado que se utiliza para evaluar el éxito de un currículo de
ciencias práctico e innovador. El dominio de prueba para la prueba estandarizada podría, por
ejemplo, cubrir hechos relacionados con semillas y plantas, materia y cambios, formación de
rocas, máquinas, clima, ecología, la luna y salud. El currículo práctico podría, en cambio,
enfatizar el desarrollo de habilidades en las áreas de observación, clasificación, medición,
predicción, generalización, hipótesis y comprobación de hipótesis. Si bien no hay nada malo
con la prueba estandarizada relacionada con los hechos, se extrajo de un dominio de "ciencia
básica de tercer grado" que difiere dramáticamente de la visión de "ciencia de tercer grado"
reflejada en el currículo práctico de ciencias; por lo tanto, la adecuación estandarizada de la
prueba al evaluar un currículo práctico debe ser cuidadosamente examinada. La pregunta
"¿Esta prueba cubre el dominio en el que estoy realmente interesado?" Es fundamental para
el uso adecuado de la prueba.
Un segundo problema importante con respecto a los dominios de prueba en la evaluación es
el poder connotativo del nombre dado a un dominio, y por lo tanto a su prueba relacionada.
Los nombres de las pruebas, como las que están diseñadas para medir la "inteligencia" o la
"literatura funcional", pueden tener significados culturales y personales poderosos. Estos
significados asociativos dan color a la forma en que las personas usan, interpretan y
comprenden el rendimiento de las pruebas. Por lo tanto, incluso cuando la definición del
dominio de prueba es apropiada para un propósito de evaluación dado, el nombre de la prueba
puede determinar cómo los resultados de las pruebas son interpretados por varias audiencias
de evaluación.
El nombre de un dominio, por ejemplo, puede dejar de transmitir la incertidumbre o, a veces,
el carácter incompleto de nuestras conceptualizaciones. Por ejemplo, las personas a menudo
olvidan, o tal vez nunca sepan, que una prueba particular de "inteligencia" o "competencia
docente" podría representar solo una faceta pequeña, y en ocasiones relativamente poco
importante, de un dominio más grande. Tomar el nombre de la prueba demasiado literalmente
puede significar que el rendimiento de la prueba de una persona adquiere todo el bagaje
semántico, afectivo, con- tativo, emocional y metafórico generalizado asociado con el
nombre del dominio en particular, ya sea "honestidad", "inteligencia" o "Preparación": la
prueba supuestamente representa. Nombrar una prueba también afecta las actitudes sobre el
uso de la prueba, a veces en un nivel profundo. Por ejemplo, las personas se resisten al uso
de una "prueba de inteligencia" para retener a los niños en el jardín de infantes. Sin embargo,
cuando el mismo tipo de prueba se denomina prueba de "preparación", la práctica se vuelve
defendible y finalmente aceptable (Cunningham, 1988).
Cuando un probador construye pruebas para medir construcciones como la inteligencia, la
única esperanza para alguna apariencia de significado compartido es a través de una
comunicación clara de las facetas específicas del dominio que se supone que la prueba debe
reflejar. ¡Pero esto es más fácil decirlo que hacerlo! Los usuarios de las pruebas a menudo
no hacen referencia al rendimiento de las pruebas a la definición de dominio cuidadosamente
elaborada de los desarrolladores de pruebas. En cambio, interpretan el desempeño de las
pruebas en términos de los contextos, significados, propósitos y sensibilidades culturales que
asocian con el nombre de una prueba. Por lo tanto, al elegir y utilizar las pruebas, debemos
ser sensibles a la posibilidad de una mala interpretación basada en el nombre de una prueba.
Muestreo desde el dominio de prueba
Un segundo concepto básico que debe explicarse al responder la pregunta "¿Qué es una
prueba?" Es que una prueba es una muestra de comportamiento, productos, respuestas o
rendimiento del dominio más amplio de interés. Incluso para el dominio comparativamente
simple de los problemas aritméticos de cuarto grado, el número de posibles preguntas de
prueba que podrían construirse es asombroso; nunca podríamos esperar pedirles a los
estudiantes que los resuelvan a todos. Por lo tanto, seleccionamos una muestra de problemas
para representar las partes importantes del dominio. Es esta muestra la que constituye la
prueba del dominio.
La Figura 1 ilustra el concepto de muestreo del dominio de aritmética de cuarto grado. El
dominio está representado por el capítulo de un libro de texto, con los cuatro subdominios
relevantes representados por los subtítulos de los capítulos. La prueba se compone de
preguntas del contenido del capítulo; en nuestra ilustración, cada parte del capítulo está
representada por al menos una pregunta en la prueba. Si un subdominio completo, como
"división", no estuviera representado en absoluto, o solo por unos pocos ítems, la
representatividad de la muestra se cuestionaría. “¿La muestra de preguntas de la prueba
representa adecuadamente el dominio?” Es un tema importante que debe abordarse al utilizar
las pruebas en la evaluación.
Muestreo desde el dominio de prueba
Un segundo concepto básico que debe explicarse al responder la pregunta "¿Qué es una
prueba?" Es que una prueba es una muestra de comportamiento, productos, respuestas o
rendimiento del dominio más amplio de interés. Incluso para el dominio comparativamente
simple de los problemas aritméticos de cuarto grado, el número de posibles preguntas de
prueba que podrían construirse es asombroso; nunca podríamos esperar pedirles a los
estudiantes que los resuelvan a todos. Por lo tanto, seleccionamos una muestra de problemas
para representar las partes importantes del dominio. Es esta muestra la que constituye la
prueba del dominio.
La Figura 1 ilustra el concepto de muestreo del dominio de aritmética de cuarto grado. El
dominio está representado por el capítulo de un libro de texto, con los cuatro subdominios
relevantes representados por los subtítulos de los capítulos. La prueba se compone de
preguntas del contenido del capítulo; en nuestra ilustración, cada parte del capítulo está
representada por al menos una pregunta en la prueba. Si un subdominio completo, como
"división", no estuviera representado en absoluto, o solo por unos pocos ítems, la
representatividad de la muestra se cuestionaría. “¿La muestra de preguntas de la prueba
representa adecuadamente el dominio?” Es un tema importante que debe abordarse al utilizar
las pruebas en la evaluación.
La muestra de elementos que forman la prueba y que pretende representar el dominio
generalmente se desarrolla de acuerdo con los planes, llamados especificaciones de prueba.
Las especificaciones de la prueba describen en detalle cuestiones tales como el tipo de
elementos que se utilizarán, el número de elementos en la prueba, la proporción de elementos
de prueba que representan cada parte del dominio, el tiempo asignado a la prueba y las
características estadísticas del elemento. como la dificultad de los elementos y los niveles de
legibilidad. Las especificaciones de prueba, por lo tanto, son los planos detallados para
construir la prueba. Los manuales de prueba bien escritos suelen incluir algunos de estos
detalles para el usuario de la prueba.
Hacer inferencias de los resultados de la prueba
Al construir una prueba, un escritor de prueba debe decidir cómo los examinados
demostrarán lo que saben y pueden hacer. Puede pedir a los examinados que seleccionen una
respuesta entre varias alternativas, como en una prueba de opción múltiple. O bien, podría
pedirles que produzcan una respuesta, como en respuesta a una pregunta de ensayo, y luego
evaluar el producto resultante. También podría considerar requerir que los estudiantes
realicen algo, luego evaluar el desempeño o el proceso observado a medida que sucede.
Al utilizar las pruebas en la evaluación, podemos elegir entre estos diferentes modos de
prueba para responder a nuestras preguntas de evaluación. Nuestra elección del tipo de
prueba debe basarse en una comprensión clara de las ventajas y desventajas de cada modo,
en el conocimiento de las limitaciones logísticas y contextuales de la evaluación y en la
comprensión de los problemas de la evaluación que queremos que las pruebas informen.
Pedirle a los examinados que seleccionen entre las alternativas, como en los exámenes de
opción múltiple o de examen verdadero / falso, ha sido el modo predominante de exámenes
escolares en los Estados Unidos durante más de cuatro décadas. Las pruebas de opción
múltiple también son la forma más común de reunir datos de logros en las evaluaciones
formales de programas educativos; de hecho, las pruebas estandarizadas de opción múltiple
son obligatorias para las evaluaciones de muchos proyectos financiados por el gobierno
federal, como el Capítulo I.
Las pruebas de selección múltiple alcanzaron su posición de prominencia por razones que
son fáciles de entender en un contexto histórico. Durante la primera mitad del siglo XIX en
los Estados Unidos, los estudiantes que se graduaban de la escuela secundaria generalmente
tomaban exámenes orales. En Boston, el educador Horace Mann encontró que estos
exámenes consumían demasiado tiempo. Además, las preguntas presentadas a cada
examinado tenían que ser diferentes; Una vez que un examinado salía de la sala de examen,
las preguntas que se le presentaban podían ser reveladas a los siguientes examinados. Mann
reemplazó los exámenes orales con exámenes de ensayo, lo que permitió que las mismas
preguntas se administraran a muchos estudiantes a la vez. La práctica de dar exámenes de
ensayo creció y, durante la Guerra Civil, fue la metodología de evaluación más común en las
escuelas estadounidenses.
La inmigración a gran escala y el mayor acceso a la educación en las últimas décadas del
siglo XIX aumentaron dramáticamente el tamaño de la población escolar. Se necesitaban
medios de prueba aún más eficientes. Además, los estudios revelaron que los puntajes en las
pruebas de ensayo variaban enormemente dependiendo de quién los calificara. La invención
del artículo de opción múltiple, acreditado a Frederick Kelley en 1914, resolvió los problemas
de ineficiencia y subjetividad en las pruebas de ensayo. El uso de pruebas de opción múltiple
creció rápidamente, especialmente después del desarrollo de los escáneres ópticos en la
década de 1950. La eficiencia y la objetividad siguen encabezando la lista de ventajas de las
pruebas de opción múltiple.
ANDRÉS STEINMETZ
Resumen de observaciones
En la mayoría de los casos, ni siquiera recopilaría ningún dato a menos que se indicara
explícitamente la S. De lo contrario, usted, como cliente, quedaría abierto a la posibilidad de
que yo, y no usted, realizaría el juicio final de la adecuación en la evaluación. Supongamos
que decide que las preguntas de investigación relativas a la estabilidad son demasiado lentas
y costosas, dado que desea llegar a una decisión dentro de un breve período de tiempo. Por
lo tanto, usted está en la posición de permanecer interesado en una cierta calidad (estabilidad)
pero se encuentra sin una S para ello. Esta es ciertamente una situación bastante común en la
mayoría de los asuntos cotidianos, y existe un método popular para tratarla: deje el S sin
explicar y decida la idoneidad de la información de P a medida que la recopila. Aplicando
este método a nuestro ejemplo, uno podría conducir la motocicleta y sacar una conclusión
acerca de qué tan "estable" se siente uno, lo que implica evocar una S basada en la experiencia
inmediata. Una sería contrastar la experiencia inmediata con un modelo ideal implícito de
estabilidad. También se podría hacer un juicio comparativo montando varias motocicletas y
comparando los sentimientos de estabilidad involucrados. De cualquier manera, uno recopila
algo de conocimiento psicomotor sobre la estabilidad que desea, formula como S y genera
información de D mientras conduce la prueba. Sin embargo, si se eligiera esta última ruta
para obtener P medidas de estabilidad, entonces usted, como cliente, tendría que hacer la
prueba de manejo. Después de todo, usted es el que está interesado principalmente en saber
si una motocicleta específica cumple con su S. Si la S se deja inobservable y si yo, como
evaluador, hago la prueba de manejo, la cuestión de la estabilidad terminaría siendo juzgado
contra mi S (implícito) y no el tuyo.
revisión
Si bien el trabajo del evaluador mecánico y del DEM se puede describir en términos de los
conceptos S, P y D y, por lo tanto, se denomina evaluación, existen diferencias importantes
en la forma en que cada uno desempeñó su función. Estas diferencias se pueden resumir en
términos de la relación entre el mecánico y el evaluador de S involucrados. El mecánico fue
la fuente de S, la S seleccionada, definió las P medidas que debían realizarse, los
procedimientos involucrados y también recopiló la información de P. Luego / comparó S y
P en cada caso y formó un juicio general sobre la idoneidad mecánica de la motocicleta en
función de la información D generada. Él / Ella tampoco estaba especialmente interesado en
hacer S explícito ni en presentar P con gran detalle. Al menos, lo hizo solo cuando parecía
necesario para hacer sus conclusiones plausibles y convincentes para el cliente, o en respuesta
a preguntas específicas.
En contraste, el evaluador de DEM abordó el problema ayudando al cliente a articular las
dimensiones involucradas en S, dejando en claro que la responsabilidad de decidir qué S debe
ser del cliente. El evaluador también dejó en claro que el cliente tenía que especificar el tipo
de evidencia que sería un índice aceptable de la S, así como lo que se consideraría el
desempeño según el criterio. Por otra parte, la importancia atribuida a todas las discrepancias
encontradas y, por lo tanto, el juicio general de adecuación, también se dejó al cliente. El
evaluador de la DEM fue, por lo tanto, el facilitador de un proceso. El evaluador real, en el
sentido de hacer valer el juicio, era el cliente.
Para garantizar que el cliente estuviera en condiciones de emitir un juicio de valor, tanto la
información de S como la de P que debían recopilarse debía alcanzar un cierto nivel de
especificidad independiente de la personalidad del evaluador de DEM. Esto es algo que hace
que el rol del evaluador sea complicado. Si bien el evaluador de DEM generalmente lo
consideraría parte de su responsabilidad de recopilar información de P, no lo haría en los
casos en los que evidentemente comprometería la capacidad del cliente para comparar S y P
y, por lo tanto, daría D significado. El ejemplo de la estabilidad fue un ejemplo de ello. Vimos
que al dejar S incrustado en la experiencia personal, la misma definición y colección de P se
estableció tácitamente en S. Por lo tanto, en ese caso, se le pidió al cliente que recolectara P
mismo.
Hay dos aspectos de la postura del evaluador de DEM que requieren comentarios adicionales.
Tienen que ver con el interés de distinguir claramente entre los actos de configuración de S
y determinar si S se ha cumplido. Primero, como ya se mencionó, establecer S es
responsabilidad del cliente, pero facilitar el proceso es responsabilidad del evaluador. Si el
cliente no puede formular una S pertinente, entonces puede emprender cualquier actividad
necesaria para crearla, lo que puede implicar consultar a expertos o lanzar proyectos de
investigación. Él / Ella también puede contratar a un experto para hacer la "evaluación" por
él / ella. Esta fue la situación en el ejemplo anterior, donde se contrató a un mecánico para
juzgar la condición mecánica de la motocicleta porque el cliente no sintió que tenía la
experiencia para hacerlo él mismo. Sin embargo, debido a la forma en que se realizó esta
"evaluación" o, más exactamente, debido a la relación del cliente con ella, no la
consideraríamos una evaluación de DEM. La razón principal de esto es que el cliente no está
estableciendo expresamente S, y esto se consideraría como un precedente a su papel y
responsabilidad en la toma de decisiones. Se puede objetar que el cliente todavía es libre de
aceptar o rechazar lo que el experto termine recomendando. Eso es, por supuesto, cierto, pero
el punto no es tanto que el cliente termine tomando las decisiones finales como lo es que
expande su conciencia de los ingredientes crudos que intervienen en la toma de la decisión.
Elegir aceptar o rechazar un juicio formal es diferente de ser parte en la realización de ese
juicio.
juicio.
El segundo asunto es una variación de la dificultad que se encuentra a menudo en
ing. S. Se puede decir que dejar la definición de algo como estabilidad a una sensación no
explicada derivada de la prueba de manejo no es objetiva, no es científica o no le brinda al
evaluador una definición operativa u observable. Y el no ser objetivo o científico en este
sentido generalmente es rechazado. Sin embargo, prefiero no hablar sobre el tema de esta
manera. Creo que es mejor discutir el tema en términos de roles y responsabilidades. El
cliente es quien tiene que vivir con la elección hecha. Él / Ella es el que tiene que
responsabilizarse de la evaluación y de las decisiones resultantes. Los datos específicos o la
información de desempeño a la que uno responde al comparar P y S es ciertamente una
cuestión de la estructura de creencias y la forma preferida de relacionarse con el mundo. Si
nada más que datos empíricos o científicos servirá, entonces ciertamente se podría proceder
a construir una definición empírica.
Inición de "estabilidad". Pero no creo que esa sea automáticamente la mejor manera o la más
apropiada de proceder. Un cliente puede encontrar satisfactorio su propio juicio personal
basado en criterios de sentimiento o no explicados, y si lo hace, yo también lo haré. Eso no
significa que no trataría de explorar con el cliente otras alternativas o las consecuencias de
hacer las cosas de diferentes maneras. Tampoco significa que aceptaría ningún contrato de
evaluación de ningún tipo. Significa que la credibilidad de la evidencia es una función de las
creencias de uno y que la información objetiva cuantitativa no es necesariamente la cosa por
la que luchar.
Un corolario interesante aquí es que, en el caso de la evaluación del programa, absolutamente
cualquier objetivo del programa es un objetivo adecuado en lo que respecta al evaluador de
la DEM. No hay necesidad de insistir en el comportamiento u otros tipos de objetivos. La
descripción de la función ya proporcionada enfatiza la libertad de establecer S como parece
deseable y pertinente para el cliente, quien tiene la responsabilidad del programa. Las reglas
para expresar el desempeño de los criterios, en particular, no se deducen necesariamente de
una cierta orientación metodológica o marco lógico. Las S y P aceptables se consideran, más
bien, como una función del conjunto de acuerdos y creencias que conforman el mundo del
cliente.
Estas características de los roles pueden ser difíciles de manejar cuando un laico quiere
evaluar una motocicleta, pero son esenciales para la evaluación integral y útil de algo como
un programa educativo o de servicio social. Esto se debe a que los programas representan
actividades humanas organizadas y, como tales, siempre representan
La evaluación del diseño en la Tabla 5 se refiere a juzgar la idoneidad de las intenciones del
programa. El objeto que se evalúa aquí es el plan del programa. Cualquier programa está
destinado a tener una base en la filosofía social y moral, así como en la investigación
empírica, y la crítica de estas bases puede ser referida como el problema de la validez de
constructo. Pero los planes del programa también pueden ser examinados por su
exhaustividad, adecuación a la situación, relación con los intereses y necesidades conocidos,
etc. También se puede hacer un análisis para ver si los recursos, como los tipos y
calificaciones del personal y los materiales, parecen adecuados para apoyar las actividades
que el programa pretende emprender. De manera similar, uno puede criticar la relación lógica
entre los objetivos del programa y las actividades diseñadas para lograrlos. La evaluación de
diseño, entonces, se refiere a la construcción y la validez lógica u operativa de un conjunto
de intenciones. Los estándares involucrados en este tipo de evaluación a menudo no son
completamente explícitos de antemano y se hacen explícitamente en forma incremental. El
método que se utiliza es el de los argumentos lógicos y la evaluación en sí misma se entiende
fácilmente en términos de los conceptos S, P, D.
Los planes del programa pueden servir como S para otras evaluaciones realizadas durante el
ciclo de vida del programa. Los planes del programa especifican y dirigen la implementación
del programa y, como tales, pueden servir como S para la evaluación de aportes, procesos y
resultados. Por ejemplo, cualquier programa utiliza ciertos tipos y cantidades de recursos a
lo largo del tiempo. Los planes del programa que especifican la cantidad y el tipo de recursos
para diferentes actividades y propósitos pueden actuar como una S que rige la instalación del
programa. Por lo tanto, la información de P se puede recopilar con respecto a la medida en
que los recursos planificados están realmente disponibles y, de hecho, se despliegan según
sea necesario (evaluación de entrada). Sin embargo, un programa cuyo diseño ha sido
juzgado como adecuado puede fallar si no tiene los recursos adecuados disponibles cuando
son necesarios. La evaluación de insumos está dirigida a ayudar a la gerencia a asegurarse de
que estos recursos estén disponibles cuando sea necesario.
La evaluación del proceso implica determinar si las actividades planificadas se llevan a cabo
de la manera requerida por los planes del programa y si son de la calidad esperada.
Nuevamente, la S aquí es el plan del programa, que especifica y describe los procesos del
programa que se deben poner en movimiento. Debido a la compleja interacción entre S y
acción (¿qué se conoció primero?), La evaluación completa del proceso se superpone a la
investigación de acción.
La evaluación de resultados se refiere a determinar la medida en que se logran los resultados
planificados. Es útil distinguir al menos dos clases de resultados. Los resultados habilitantes
o provisionales se refieren a los hitos o subobjetivos esenciales para la ejecución del
programa de mes a mes. En contraste, los objetivos terminales se refieren a los propósitos
principales u objetivos del programa.
Debe quedar claro que la especificación adecuada de entradas, procesos y salidas para cada
componente y subcomponente, y la especificación de las relaciones entre todos los
subcomponentes, equivale a poner a disposición la S esencial para la evaluación de
aportaciones, procesos y resultados. Esto hace posible realizar una evaluación de forma
continua a lo largo de la vida del proyecto, ya que los datos de P pueden recopilarse en
relación con una clase más amplia de características del programa que los objetivos finales.
Finalmente, la información
La información producida en el curso de la evaluación puede utilizarse para respaldar dos
categorías amplias de acciones de gestión. Por un lado, se puede usar para ejercer un mayor
control sobre las operaciones del programa con el fin de asegurar que P cumple con S. Por
otro lado, la administración puede decidir que el S originalmente establecido es inapropiado
o irrealista y, por lo tanto, puede cambiar la configuración. S involucrado
Ahora, por supuesto, es imposible recopilar formalmente información empírica sobre todas
las entradas, procesos y salidas. Así, la gestión del programa se enfrenta con el
establecimiento de algunas prioridades. La gerencia debe identificar la información P que
sería más útil para ella, dados sus recursos limitados y sus necesidades internas y externas.
Habrá información de P útil principalmente para la gestión del programa en la operación
diaria del programa, y habrá información que se debe proporcionar a las personas y otras
organizaciones en el entorno que sirvan para justificar el programa. . Por lo tanto, la
administración debe establecer prioridades en torno a sus necesidades de administración
interna adecuada y su necesidad de seguir siendo responsable ante el entorno externo. Las
decisiones involucradas son tomadas por la administración, no por el evaluador de DEM,
aunque este último facilita nuevamente las deliberaciones involucradas. Tener un diseño
completo del programa disponible, literalmente, señala los puntos problemáticos y ayuda a
hacer las concesiones involucradas. La recopilación de información de P se guía por lo que
el evaluador de DEM llama "preguntas de evaluación". Dichas preguntas se preguntan si lo
que debería ser realmente es; si las entradas están disponibles como se especifica; si los
procesos se llevan a cabo según lo planeado; y si los resultados se están logrando según lo
previsto.2 En otras palabras, las preguntas de la evaluación dirigen la atención a la
información P necesaria para determinar si se ha cumplido con la S aplicable. Algunos
ejemplos podrían ser: ¿Hay diez participantes de cada escuela y cumplen con los criterios de
selección? (evaluación de resultados; la S requiere que haya diez de cada escuela que
cumplan con ciertos criterios); ¿Están disponibles los datos de evaluación de necesidades?
(evaluación de entrada; la S requiere que los datos de evaluación de necesidades estén
disponibles para las personas que planifican la selección de personal); o ¿Se reúne el comité
de personal según lo previsto? (Evaluación del proceso; la S especifica quién debe reunirse
para diseñar y llevar a cabo la selección del personal). También puede haber preguntas de
evaluación sobre el funcionamiento de los otros componentes, con el objetivo similar de
garantizar la operación efectiva del programa. Y, sin duda, habría preguntas de evaluación
dirigidas a determinar si los resultados finales se han realizado.
Es importante notar la definición muy estrecha dada a las preguntas de evaluación. Las
preguntas de evaluación suponen la existencia de una S. Esto se debe a que la evaluación se
define como la comparación entre lo que es y lo que podría ser y es imposible a menos que
se especifique la S. El evaluador de DEM no se permitirá participar en la recopilación de
información de P para responder preguntas para las que no existe S. Pero, como ya se
comentó, él / ella trabajará con el cliente para articular la S y definir la acción que se debe
tomar para que la S pertinente esté disponible.
Las preguntas de la evaluación proporcionan la conexión entre el diseño del programa, la
intención o las expectativas del programa, en resumen, el programa S y el programa tal como
es en realidad. Se pueden hacer docenas de estas preguntas y muchas se pueden responder a
través de entrevistas informales, reuniones o sesiones de planificación. Algunos se llevarán
a cabo de manera más formal, dependiendo de los intereses y necesidades de la
administración y los problemas y costos involucrados en la recopilación de la información.
Los pasos principales esenciales para la recopilación de información de P se resumen en las
Tablas 6 y 7. Por lo tanto, una evaluación de DEM consistirá en una S (un diseño de programa
detallado que muestra una red y descripciones de entrada-proceso-salida para todos los
componentes y subcomponentes ) y se completó un plan de recolección de datos para cada
pregunta de evaluación. De esta manera, se puede configurar un ciclo de retroalimentación
interna para que el programa se administre lo más posible sobre la base de la información D
generada al comparar S y P; Es decir, sobre la base de una evaluación sistemática.
CONCLUSIÓN
El modelo de evaluación de discrepancia ofrece un enfoque pragmático y sistemático para
una amplia variedad de necesidades de evaluación. Desde las actividades diarias de un
maestro individual hasta la evaluación del programa educativo, el DEM puede utilizarse para
estructurar la recopilación de información esencial para una toma de decisiones bien
informada. Una característica importante de la DEM es su énfasis en la autoevaluación y la
mejora sistemática del programa.