Crietrios - Técnicos para La Evaluación INEE

(Primera Seccin)
DIARIO OFICIAL
Viernes 24 de abril de 2015
INSTITUTO NACIONAL PARA LA EVALUACION DE LA

EDUCACION
CRITERIOS tcnicos y de procedimiento para el anlisis de los instrumentos de evaluacin, el proceso de
calificacin y la definicin de las listas de prelacin de los Concursos de Oposicin para el ingreso al Servicio
Profesional Docente en educacin bsica y educacin media superior para el ciclo escolar 2015-2016.
Al margen un logotipo, que dice: Instituto Nacional para la Evaluacin de la Educacin.- Mxico.
CRITERIOS TCNICOS Y DE PROCEDIMIENTO PARA EL ANLISIS DE LOS INSTRUMENTOS DE EVALUACIN,
EL PROCESO DE CALIFICACIN Y LA DEFINICIN DE LAS LISTAS DE PRELACIN DE LOS CONCURSOS DE
OPOSICIN PARA EL INGRESO AL SERVICIO PROFESIONAL DOCENTE EN EDUCACIN BSICA Y EDUCACIN
MEDIA SUPERIOR PARA EL CICLO ESCOLAR 2015-2016.
Con fundamento en lo dispuesto en los artculos 3o. fraccin IX de la Constitucin Poltica de los Estados
Unidos Mexicanos; 14, 22, 26, 27 fraccin VII, 29, 38 fraccin VI, 47, 49 de la Ley del Instituto Nacional para la
Evaluacin de la Educacin; Lineamientos para llevar a cabo la evaluacin para el ingreso al Servicio
Profesional Docente en Educacin bsica y Educacin media superior 1 para el ciclo escolar 2015-2016.
LINEE-01-2015, la Junta de Gobierno emite los siguientes Criterios tcnicos y de procedimiento para el
anlisis de los instrumentos de evaluacin, el proceso de calificacin y la definicin de las listas de prelacin
de los Concursos de Oposicin para el ingreso al Servicio Profesional Docente en Educacin bsica y
Educacin media superior para el ciclo escolar 2015-2016.
El presente documento tiene como finalidad establecer los referentes y procedimientos necesarios para
garantizar la validez, confiabilidad y equidad de los resultados de los procesos de evaluacin implicados en
estos Concursos. Su contenido se organiza en cinco apartados: 1) Criterios tcnicos para el anlisis e
integracin de los instrumentos de evaluacin; 2) Procedimiento para el establecimiento de puntos de corte y
estndares de desempeo; 3) Proceso para la calificacin de los sustentantes; 4) Resultado del proceso de
evaluacin y 5) Integracin de las listas de prelacin. Se presenta un Anexo tcnico con informacin detallada
de algunos de los aspectos tcnicos que se consideran en los distintos apartados el documento.
Definicin de trminos
Para los efectos del presente documento, se emplean las siguientes definiciones:
I.
Alto impacto: Se indica cuando los resultados del instrumento tienen consecuencias importantes
para las personas o las instituciones; por ejemplo, en los procesos de admisin o certificacin.
II.
Calificacin: Proceso de asignacin de una puntuacin o nivel de desempeo logrado a partir

de los resultados de una medicin.
III.
Confiabilidad: Cualidad de las mediciones obtenidas con un instrumento, que se caracterizan

por ser consistentes y estables cuando ste se aplica en distintas ocasiones.
IV.
Constructo: Elaboracin terica formulada para explicar un proceso social, psicolgico o

educativo y cuya adecuada descripcin permite que sea susceptible de ser observable o medible.
V.
Correlacin punto biserial: Medida de consistencia que se utiliza en el anlisis de reactivos,

indica si hay una correlacin entre el resultado de un reactivo con el resultado global del examen.
VI.
Criterios de desempate: Regla con la cual se determina el orden que ocupan los sustentantes
en las listas de prelacin, con base en los resultados en los distintos instrumentos que
constituyen el proceso de evaluacin.
VII.
Criterio de evaluacin: Indicador de un valor aceptable sobre el cual se puede establecer o

fundamentar un juicio del valor sobre el desempeo de una persona.
VIII.
Desempeo: Resultado obtenido por el sustentante en un instrumento de evaluacin educativa.
IX.
Dificultad de un reactivo: Indica la proporcin de personas que responden correctamente el

reactivo de un examen. Entre mayor sea este ndice, menor ser su dificultad y a mayor
dificultad del reactivo, menor ser su ndice.
Se emplean las siglas

Profesional Docente.
EB
y EMS para referirse a la Educacin bsica y Educacin media superior, respectivamente y
SPD
para el Servicio
DIARIO OFICIAL
(Primera Seccin)
X.
Distractores: Opciones de respuesta incorrectas del reactivo de opcin mltiple, que

probablemente sern elegidas por los sujetos con menor dominio en lo que se evala.
XI.
Dominio: Conjunto de conocimientos, habilidades, destrezas, actitudes u otros atributos que

tienen las siguientes propiedades: lmites, extensin y definicin. Tambin se puede aplicar a
contenidos, procedimientos u objetos.
XII.
Educacin bsica: Tipo de educacin que comprende los niveles de preescolar, primaria y
secundaria en todas sus modalidades, incluyendo la educacin indgena, la especial y la que se
imparte en los centros de educacin bsica para adultos.
XIII.
Educacin media superior: Tipo de educacin que comprende el nivel de bachillerato, los
dems niveles equivalentes a ste, as como la educacin profesional que no requiere
bachillerato o sus equivalentes.
XIV.
Equiparacin: Proceso estadstico que se utiliza para ajustar las puntuaciones de las formas de
un mismo instrumento, permite que las puntuaciones de una forma a otra sean utilizadas de
manera intercambiable. La equiparacin ajusta, por dificultad, las distintas formas que fueron
construidas con contenidos y dificultad similar.
XV.
Error estndar de medida: Desviacin estndar de una distribucin hipottica de errores de

medida de una poblacin.
XVI.
Escala: Procedimiento para asignar nmeros, puntuaciones o medidas a objetos o sucesos con
propiedades especficas a partir de reglas definidas.
XVII.
Escalamiento: Proceso a travs del cual se construye una escala que facilita la interpretacin
de la calificacin que obtienen los sustentantes en uno o varios instrumentos de evaluacin,
colocando las puntuaciones de los distintos instrumentos o formas a una escala comn.
XVIII.
Especificaciones de tareas evaluativas o reactivos: Descripcin detallada de las

caractersticas relevantes que se espera tengan los sujetos al sustentar el instrumento de
evaluacin y que es posible observar a travs de las tareas evaluativas o los reactivos. Tienen el
papel de guiar a los comits acadmicos en la elaboracin y validacin de las tareas evaluativas
o los reactivos y que stos cuenten con los elementos necesarios para construirlos alineados al
objeto de medida o constructo que se desea evaluar a travs del instrumento.
XIX.
Estndar: Principio de valor o calidad en la conduccin y uso de los procedimientos de

evaluacin y que son acordados por expertos en evaluacin.
XX.
Evaluacin: Accin de emitir juicios de valor que resultan de comparar los resultados de una
medicin u observacin con un referente previamente establecido.
XXI.
Examen: Instrumento de evaluacin que se emplea para identificar el nivel de dominio de los
sustentantes sobre un constructo especfico.
XXII.
Indicador: Instrumento utilizado para determinar, por medio de unidades de medida, el grado de
cumplimiento de una caracterstica, cualidad, conocimiento, capacidad, objetivo o meta,
empleado para valorar factores que se desean medir.
XXIII.
Instrumento de evaluacin: Tcnicas de medicin y recoleccin de datos que suelen tener

distintos formatos, atendiendo a la naturaleza de la evaluacin, por ejemplo, instrumentos de
seleccin de respuesta, instrumentos de respuesta construida, cuestionarios, observaciones,
portafolios, entre otros.
XXIV.
Instrumento de evaluacin referido a un criterio: Instrumento que permite comparar el

desempeo de las personas evaluadas, con un estndar pre-establecido.
XXV.
Jueceo: Mtodo en el cual se utiliza la opinin de expertos (denominados jueces) para

determinar, entre otras cosas, la pertinencia de la validez de las tareas evaluativas o los
reactivos respecto a un dominio; el establecimiento de estndares o puntos de corte; as como la
calificacin de reactivos de respuesta construida.
XXVI.
Lista de prelacin: Orden descendente en que se enlistan los sustentantes con base en los
resultados obtenidos en el proceso de evaluacin.
(Primera Seccin)
DIARIO OFICIAL
XXVII.
Medicin: Proceso de asignacin de valores numricos a atributos de las personas, objetos o

eventos de acuerdo con reglas especficas que permitan que sus propiedades puedan ser
representadas cuantitativamente.
XXVIII.
Muestra: Subconjunto de la poblacin de inters que refleja las variables medidas en una
distribucin semejante a las de la poblacin.
XXIX.
Nivel de desempeo: Criterio conceptual que delimita el marco interpretativo de las

puntuaciones obtenidas en un instrumento de evaluacin, y que refiere a lo que la persona
evaluada es capaz de hacer en trminos de conocimientos, destrezas o habilidades en el
contexto del instrumento.
XXX.
Objeto de medida: Conjunto de caractersticas o atributos que se miden en el instrumento de

evaluacin.
XXXI.
Parmetro: Valor de referencia que permite medir avances y resultados alcanzados en el

cumplimiento de objetivos, metas y dems caractersticas del ejercicio de una funcin o actividad.
XXXII.
Parmetro estadstico: Nmero que resume un conjunto de datos que se derivan del anlisis
de una cualidad o caracterstica del objeto de estudio.
XXXIII.
Perfil: Conjunto de caractersticas, requisitos, cualidades o aptitudes que deber tener el

aspirante a desempear un puesto o funcin descrito especficamente.
XXXIV.
Porcentaje de acuerdos inter-jueces: Medida del grado en que dos jueces coinciden en la
puntuacin asignada a un sujeto cuyo desempeo es evaluado a travs de una rbrica.
XXXV.
Punto de corte: En instrumentos de evaluacin con referencia a un estndar de desempeo, es

la puntuacin mnima o criterio a alcanzar o superar para considerar que el nivel de desempeo
de una persona cumple con lo esperado y distinguirlo de otro que no.
XXXVI.
Puntuacin: Nmero de aciertos obtenidos en un instrumento de evaluacin.
XXXVII. Reactivo: Unidad bsica de medida de un instrumento de evaluacin que consiste en una
pregunta o instruccin que requiere una respuesta del sujeto.
XXXVIII. Rbrica: Herramienta que integra los criterios a partir de los cuales se califica una tarea evaluativa.
XXXIX.
Sesgo: Error en la medicin de un atributo (por ejemplo, conocimiento o habilidad), debido a una
variable no controlada, como las diferencias culturales o lingsticas de las personas evaluadas.
XL.
Sustentante: Aspirante a ingresar al Servicio Profesional Docente que da respuesta los

instrumentos de evaluacin que se consideran en el concurso de oposicin.
XLI.
Tareas evaluativas: Unidad bsica de medida de un instrumento de evaluacin que consiste en

la ejecucin de una actividad que es susceptible de ser observada.
XLII.
Validez: Juicio valorativo integrador sobre el grado en que los fundamentos tericos y las
evidencias empricas apoyan la interpretacin de las puntuaciones de los instrumentos de
evaluacin.
1. Criterios tcnicos para el anlisis e integracin de los instrumentos de evaluacin

Uno de los aspectos fundamentales que debe llevarse a cabo antes de emitir cualquier resultado de un
proceso de evaluacin es el anlisis psicomtrico de los instrumentos que integran la evaluacin, con el
objetivo de verificar que cuenta con la calidad tcnica necesaria para proporcionar resultados confiables,
acordes con el objetivo de la evaluacin.
Las tcnicas empleadas para el anlisis de un instrumento dependen de su naturaleza, de los objetivos
especficos para el cual fue diseado, as como del tamao de la poblacin evaluada. Sin embargo, en todos
los casos, debe aportarse informacin sobre la dificultad y discriminacin de sus reactivos o tareas
evaluativas, as como la precisin del instrumento, los indicadores de consistencia interna o estabilidad del
instrumento, los cuales, adems de los elementos asociados a la conceptualizacin del objeto de medida,
forman parte de las evidencias que servirn para valorar la validez de la interpretacin de sus resultados.
Estos elementos, debern reportarse en el informe tcnico del instrumento.
Con base en los resultados de estos procesos deben identificarse las tareas evaluativas o los reactivos
que contribuyen a la calidad mtrica del instrumento, los cuales deben incorporarse para la calificacin de las
personas evaluadas, a fin de estimar con mayor precisin su desempeo.
DIARIO OFICIAL
(Primera Seccin)
Para llevar a cabo el anlisis de los instrumentos de medicin utilizados en los concursos, es necesario
que los distintos grupos de sustentantes de las entidades federativas queden equitativamente representados,
dado que la cantidad de aspirantes por tipo de evaluacin en cada entidad federativa es notoriamente
diferente. Para ello, se definir una muestra de aspirantes por cada instrumento de evaluacin que servir
para analizar el comportamiento estadstico de los instrumentos y orientar los procedimientos descritos ms
adelante, y que son previos a la calificacin de los sustentantes. Para conformar dicha muestra, cada entidad
federativa contribuir con 500 aspirantes como mximo, y debern ser elegidos aleatoriamente. Si hay menos
de 500 aspirantes, todos se incluirn en la muestra. Si no se realizara este procedimiento, las decisiones
sobre los instrumentos de evaluacin, as como en la identificacin de los puntos de corte y los estndares de
desempeo, se veran fuertemente influenciadas, indebidamente, por el desempeo mostrado por los
aspirantes de aquellas entidades que se caracterizan por tener ms sustentantes.
Sobre la conformacin de los instrumentos de evaluacin
Con la finalidad de obtener puntuaciones de los aspirantes con el nivel de precisin requerido para los
propsitos de los concursos, los instrumentos de evaluacin debern tener las siguientes caractersticas:
Exmenes de opcin mltiple:
Debern estar organizados jerrquicamente en tres niveles de desagregacin (por ejemplo, reas,
subreas y temas); el primero deber contar con al menos dos conjuntos de contenidos especficos
por evaluar y, cada uno de ellos, deber tener al menos 20 reactivos efectivos para calificar.
El segundo nivel de desagregacin deber considerar al menos dos subconjuntos de aspectos a

evaluar, y cada uno de ellos deber tener al menos 10 reactivos efectivos para calificar.
En el tercer nivel de desagregacin, cada aspecto a evaluar deber contemplar al menos dos
contenidos especficos, los cuales debern estar definidos en trminos de especificaciones de
reactivos. Cada especificacin deber ser evaluada al menos por un reactivo.
Las especificaciones de reactivos debern integrarse por una definicin operacional del contenido
especfico a evaluar, un reactivo ejemplo y la bibliografa en la se sustenta el reactivo.
Los instrumentos de evaluacin de carcter nacional debern tener, al menos, 80 reactivos efectivos
para calificacin.
Los instrumentos complementarios que atienden necesidades especficas de las entidades estatales,
debern tener una longitud igual o mayor a 60 reactivos efectivos para calificar.
Deber documentarse el procedimiento que se sigui para determinar la estructura del instrumento y
la cantidad de reactivos que conforman el instrumento, a fin de justificar la relevancia (ponderacin)
de los contenidos especficos evaluados en el mismo.
Exmenes de respuesta construida:
Debern estar organizados jerrquicamente en, al menos, dos niveles de desagregacin (reas y
subreas; si fuera el caso, temas); el primero deber contar, con al menos dos conjuntos de
contenidos especficos a evaluar.
A partir del segundo nivel (o tercer nivel, si fuera el caso) de desagregacin, se debern elaborar las
especificaciones de las tareas evaluativas. Cada especificacin deber tener su definicin operacional.
A partir de las definiciones operacionales se disearn los niveles o categoras de dominio.
Los distintos niveles o categoras de dominio que se consignen, debern ser claramente distinguibles
entre s.
Criterios y parmetros estadsticos

Debido a las implicaciones que tienen los resultados de los instrumentos empleados en los concursos de
ingreso al Servicio Profesional Docente en EB y EMS, debern atenderse los siguientes criterios y parmetros
estadsticos:
En el caso de los instrumentos de evaluacin con reactivos de opcin mltiple:
La respuesta correcta deber tener una dificultad clsica de 10% a 90% y una correlacin punto
biserial corregida igual o mayor que 0.20.
Los distractores debern tener correlaciones punto biserial negativas.
La confiabilidad del instrumento deber ser igual o mayor que 0.90.
(Primera Seccin)
DIARIO OFICIAL
En el caso de los instrumentos basados en tareas evaluativas o reactivos de respuesta construida,

y que sern calificados con rbrica:
La correlacin entre cada aspecto evaluado con la puntuacin global deber ser igual o mayor que 0.30.
El porcentaje de acuerdos inter-jueces deber ser mayor o igual a 70%.
El porcentaje de acuerdos intra-jueces deber ser mayor o igual a 80% considerando al menos 5
medidas repetidas seleccionadas al azar.
Si en algn instrumento de evaluacin no se llegara a cumplir con estos parmetros estadsticos y la falta
de reactivos comprometiera la estructura diseada del instrumento de evaluacin que fue aprobada por el
Consejo Tcnico, podrn considerarse los siguientes parmetros estadsticos:
En el caso de los instrumentos de evaluacin con reactivos de opcin mltiple:
La respuesta correcta deber tener una dificultad clsica de 10% a 90% y una correlacin punto
biserial corregida igual o mayor que 0.15.
Los distractores debern tener correlaciones punto biserial negativas.
En el caso de los instrumentos basados en tareas evaluativas o reactivos de respuesta construida

y que sern calificados con rbrica:
La correlacin entre cada aspecto evaluado con la puntuacin global deber ser igual o mayor que 0.20.
El porcentaje de acuerdos inter-jueces deber ser mayor o igual a 60%.
El porcentaje de acuerdos intra-jueces deber ser mayor o igual a 70% considerando al menos 5
medidas repetidas seleccionadas al azar.
Si se diera el caso de que en algn instrumento no se cumpliera con los criterios y
parmetros estadsticos antes indicados, la Junta de Gobierno del INEE determinar lo
que procede, buscando salvaguardar la estructura del instrumento que fue aprobada
por el Consejo Tcnico.
2. Procedimiento para el establecimiento de puntos de corte y estndares de desempeo

Un paso crucial en el desarrollo y uso de los instrumentos de evaluacin de naturaleza criterial, como es el
caso de los que se utilizarn para evaluar a los sustentantes de los concursos de oposicin de ingreso al SPD,
es el establecimiento de los puntos de corte que dividen el rango de calificaciones para diferenciar entre
niveles de desempeo.
En los instrumentos de evaluacin de tipo criterial, la calificacin de cada sustentante se contrasta con un
estndar de desempeo establecido por un grupo de expertos que describe el nivel de competencia requerido
para algn propsito determinado es decir, los conocimientos y habilidades que, para cada instrumento de
evaluacin, se consideran indispensables para un desempeo docente adecuado. En este sentido el estndar
de desempeo delimita el marco interpretativo de las puntuaciones obtenidas en un instrumento por los
sustentantes.
El procedimiento para el establecimiento de puntos de corte y estndares de desempeo incluye tres
etapas, las cuales se describen a continuacin:
Primera etapa
Con el fin de contar con un marco de referencia comn para los distintos instrumentos de evaluacin, se
debern establecer descriptores genricos de los niveles de desempeo que se utilizarn, para orientar el
trabajo de los comits acadmicos en el desarrollo de los descriptores especficos de cada instrumento. Para
todos los instrumentos se utilizarn tres niveles de desempeo posibles: Nivel I (N I), Nivel II (N II) y Nivel III
(N III). Los descriptores genricos para cada uno de ellos se indican en la Tabla 1.
DIARIO OFICIAL
(Primera Seccin)
Tabla 1. Descriptores genricos de los niveles de desempeo

Nivel de desempeo
Descriptor
Nivel I (N I)
Dominio insuficiente de los conocimientos y habilidades, contemplados en

el instrumento, que se juzgan indispensables para un adecuado
desempeo docente.
Nivel II (N II)
Dominio suficiente y organizado de los conocimientos y habilidades,

contemplados en el instrumento, que se juzgan indispensables para un
adecuado desempeo docente.
Nivel III (N III)
Dominio suficiente y organizado de los conocimientos y habilidades,

contemplados en el instrumento, que se juzgan indispensables para un
adecuado desempeo docente, con amplia capacidad de utilizarlas en una
diversidad de situaciones didcticas.
Segunda etapa
En esta etapa se establecern los puntos de corte y debern participar los Comits acadmicos
especficos para el instrumento de evaluacin que se est trabajando. Dichos Comits se debern conformar,
en su conjunto, con especialistas que han participado en el diseo de los instrumentos y cuya pluralidad sea
representativa de la diversidad cultural en que se desenvuelve la accin educativa del pas. En todos los
casos, sus miembros debern ser capacitados especficamente para ejercer su mejor juicio profesional y
poder identificar cul es la puntuacin requerida para que el sustentante alcance un determinado nivel o
estndar de desempeo.
Los insumos que tendrn los Comits acadmicos como referentes para el desarrollo de esta actividad,
ser la documentacin que describe la estructura de los instrumentos, sus especificaciones y los ejemplos de
reactivos incluidos en las mismas. En todos los casos, el primer punto de corte se establecer a partir de lo
que los expertos definan como la ejecucin tpica o esperable de un sustentante hipottico, mnimamente
aceptable, para cada nivel de desempeo (NII o NIII). Para ello los expertos reunidos en los Comits
acadmicos, debern determinar, para cada pregunta considerada, cul es la probabilidad de que dichos
sustentantes hipotticos las respondan correctamente y, con base en la suma de estas probabilidades,
establecer la calificacin mnima requerida o punto de corte, para cada nivel de desempeo (Angoff, 1971).
Una vez establecidos los puntos de corte que dividen el rango de calificaciones para diferenciar los niveles
de desempeo en cada instrumento, los Comits acadmicos, considerando el conjunto de reactivos que, en
cada caso el sustentante hipottico es capaz de responder, debern describir los conocimientos y habilidades
especficos que estn implicados en cada nivel de desempeo, en trminos de lo que ste conoce y es capaz
de hacer.
Tercera etapa
En la tercera etapa se llevar a cabo un ejercicio de retroalimentacin a los miembros de los Comits
Acadmicos con el fin de contrastar sus expectativas sobre el desempeo de la poblacin evaluada, con la
distribucin de sustentantes que se obtiene en cada nivel de desempeo al utilizar los puntos de corte
definidos en la segunda fase, una vez que se cuente con los resultados alcanzados por los sustentantes, a fin
de determinar si es necesario realizar algn ajuste en la decisin tomada con anterioridad y, de ser el caso,
llevar a cabo el ajuste correspondiente.
Los jueces debern estimar la tasa de sustentantes que se esperara alcanzara cada nivel de desempeo
(II y III) previamente definido, y comparar esta expectativa con los datos reales de los sustentantes, una vez
aplicados los instrumentos. Si las expectativas y los resultados difieren a juicio de los expertos, deber
definirse un punto de concordancia para la determinacin definitiva del punto de corte asociado a cada nivel
de desempeo en cada uno de los instrumentos, siguiendo el mtodo propuesto por Beuk (1984).
La tercera etapa se llevar cabo solamente para aquellos instrumentos de evaluacin en los que el tamao
de la poblacin evaluada sea igual o mayor a 100 sustentantes. Si la poblacin es menor a 100 aspirantes, los
puntos de corte sern los definidos en la segunda etapa.
Si se diera el caso de que algn instrumento no cumpliera con el criterio de
confiabilidad indicado en el apartado previo, la Junta de Gobierno del INEE
determinar el procedimiento a seguir para la determinacin de los puntos de corte
correspondientes.
(Primera Seccin)
DIARIO OFICIAL
3. Proceso para la calificacin de los sustentantes

Todos los sustentantes que participen en el Concurso de Oposicin al Ingreso al SPD 2015-2016, en EB y
debern sustentar, al menos, dos exmenes. Cada sustentante recibir los resultados de cada uno de los
exmenes que haya presentado, as como el resultado integrado de todo el proceso de evaluacin.
EMS
Una vez que se han establecido los puntos de corte en cada examen, el sustentante ser ubicado en uno
de los tres niveles de desempeo en funcin de la puntuacin alcanzada. Esto implica que su resultado ser
comparado contra el estndar previamente establecido, con independencia de los resultados obtenidos por el
conjunto de sustentantes que presentaron el examen.
3.1 Proceso para la equiparacin de instrumentos de evaluacin
Cuando el programa de evaluacin implica la aplicacin un instrumento en diversas ocasiones en un
determinado periodo, en especial si sus resultados tienen un alto impacto, es indispensable el desarrollo y uso
de formas o versiones de versiones del instrumento que sean equivalentes a fin de garantizar que,
independientemente del momento en que un aspirante participe en el proceso de evaluacin, no tenga
ventajas o desventajas de la forma o versin que responda. Por esta razn, es necesario un procedimiento
que permita hacer equivalentes los resultados obtenidos en diferentes formas o versiones de un mismo
instrumento.
Para que dos formas de un instrumento de evaluacin puedan ser equiparadas, se deben cubrir los
siguientes requerimientos:
Compartir las mismas caractersticas tcnicas: estructura, especificaciones de reactivos, nmero de

reactivos (longitud del instrumento) y un subconjunto de reactivos comunes (reactivos ancla), que en
cantidad no deber ser menor al 30% ni mayor al 50% de la totalidad de reactivos.
Contar con una confiabilidad semejante.
Los reactivos que constituyen el ancla debern ubicarse en la misma posicin relativa dentro de cada
forma, y debern quedar distribuidos a lo largo de todo el instrumento.
La modalidad en la que se administren las formas deber ser la misma para todos los aspirantes (por
ejemplo, en lpiz y papel o en computadora).
Si el nmero de sustentantes es de al menos 100 en las distintas formas en que se llevar a cabo la
equiparacin, se utilizar el mtodo de equiparacin lineal para puntajes observados. Si el nmero de
sustentantes es menor de 100 en alguna de las formas, se utilizar el mtodo de equiparacin de identidad
(ver anexo tcnico).
3.2 Escala utilizada para reportar los resultados
En cada plan de evaluacin es indispensable definir el tipo de escala en la que se reportarn los
resultados de los sustentantes. Existen muchos tipos de escalas de calificacin; en las escalas referidas a
norma, las calificaciones indican la posicin relativa del sustentante en una determinada poblacin. En las
escalas referidas a criterio cada calificacin en la escala representa un nivel particular de desempeo referido
a un estndar previamente definido en un campo de conocimiento o habilidad especfico.
Por esta razn, dado que los instrumentos de evaluacin utilizados en el proceso de evaluacin de los
concursos son de carcter criterial, toma especial relevancia emplear una escala de calificacin diferente en
las que tradicionalmente se reportan los resultados educativos en Mxico como la escala de 5 a 10 (Santiago,
2014), de 0 a 10 bien de 0% a 100%, con la finalidad de evitar interpretaciones equvocas de los resultados,
por ejemplo, si se obtiene una puntuacin del 50% de aciertos y con esta puntuacin se ubica en el nivel II de
desempeo, podra afirmarse errneamente que se est aprobando, aun cuando se reprob en la prueba.
El escalamiento que se llevar a cabo, permitir construir una mtrica comn para todos los instrumentos
de evaluacin que se administrarn. Consta de dos transformaciones, la primera denominada doble arcoseno,
que permite estabilizar la magnitud de la precisin de las puntuaciones a lo largo de la escala; la segunda
transformacin es lineal y ubica el punto de corte del nivel de desempeo II en un mismo valor para todos los
exmenes: puntuacin de 100 o ms en esta escala (cuyo rango va de va de 60 a 170 puntos 2), representa,
en todos los instrumentos, que se ha alcanzado un nivel de desempeo II, al menos. Es decir, que se cuenta
con un dominio suficiente y organizado de los conocimientos y habilidades (contemplados en el instrumento)
que se juzgan indispensables para un adecuado desempeo docente.
2 Pueden encontrarse ligeras variaciones en este rango debido a que la escala es aplicable a mltiples instrumentos con caractersticas muy
diversas, tales como las longitudes, tipos de instrumentos y su nivel de precisin, diferencias entre los puntos de corte que atienden a las
particularidades de los contenidos que se evalan, entre otras. Para mayores detalles sobre los procesos que se llevan a cabo para el
escalamiento de las puntuaciones, consultar el anexo tcnico.
DIARIO OFICIAL
(Primera Seccin)
En la siguiente grfica puede observarse el nmero de aciertos obtenidos en dos instrumentos de

longitudes diferentes y con puntos de corte distintos que, a partir del escalamiento, es posible graficar en una
misma escala, trasladando el primer punto de corte a 100 puntos, aun cuando en cada examen el punto de
corte refiera a nmero de aciertos diferentes. En este ejemplo la distribucin de las puntuaciones va de 65 a
125 puntos.
4. Resultado del proceso de evaluacin

Dado que en cada instrumento se miden dominios diferentes y se atiende una lgica propia de diseo,
construccin e incluso calificacin, en ningn caso podrn sumarse el nmero de aciertos de cada examen
para generar una puntuacin global de todo el proceso de evaluacin. Por esta razn, para determinar el
resultado del proceso de la evaluacin que permite establecer la idoneidad de los sustentantes, debern
integrarse los resultados de todos los instrumentos de evaluacin sustentados, bajo el criterio de que:
El sustentante Idneo ser aquel que obtenga, al menos, el nivel de desempeo II (N
II) en todos y cada uno de los instrumentos de evaluacin que constituyen el proceso
de evaluacin, segn se define en los lineamientos del concurso
Cada sustentante conocer el resultado integrado de todo el proceso de evaluacin, as como los
resultados de cada uno de los exmenes que haya presentado.
Conformacin de los grupos de desempeo
Con el conjunto de sustentantes que obtengan un resultado Idneo en el proceso la evaluacin, se
conformarn grupos de desempeo en funcin de la combinacin de resultados alcanzados del nivel de
desempeo II o III (NII o NIII) en los instrumentos considerados en el proceso de evaluacin. Los grupos de
desempeo son el primer criterio de ordenamiento para la integracin de las listas de prelacin.
Como ejemplo, los grupos de desempeo en los procesos de evaluacin que constan de dos nicos
instrumentos, se conformarn de la manera siguiente:
El primer grupo de desempeo (A), se conformar con aquellos sustentantes que alcancen el
nivel de desempeo III (N III) en los dos exmenes involucrados en su proceso de evaluacin.
El segundo grupo de desempeo (B), se conformar por los aspirantes que alcancen el nivel
de desempeo II (N II) en uno de los exmenes y el nivel de desempeo III (N III) en el otro
examen.
El tercer grupo de desempeo (C), se conformar por los aspirantes que alcancen el nivel de
desempeo N II en los dos de los exmenes.
(Primera Seccin)
DIARIO OFICIAL
En la siguiente figura se representan los grupos de desempeo derivados del ejemplo:
Para los casos en los que el proceso de evaluacin considere tres o ms instrumentos, los grupos se
debern integrar con la misma lgica de ordenamiento en funcin del desempeo observado en cada uno de
ellos. A continuacin se presentan las tablas 2a, 2b y 2c indicando los grupos de desempeo que se organizan
en funcin del nmero de exmenes y los niveles de desempeo II y III obtenidos en cada uno de ellos.

5.
DIARIO OFICIAL
(Primera Seccin)
Integracin de las listas de prelacin
Las listas de prelacin se integrarn slo con sustentantes que alcancen un resultado Idneo en su
proceso de evaluacin. La lista se ordenar, en primer trmino, considerando los grupos de desempeo,
iniciando con el grupo A, despus el B, despus C, y as de manera sucesiva.
Posteriormente, al interior de cada grupo, se ordenar la lista considerando, primero, la puntuacin
obtenida por los sustentantes en el examen de mayor relevancia o jerarqua dentro del conjunto de
instrumentos implicados en el proceso de evaluacin, despus la calificacin obtenida en el instrumento que le
sigue en relevancia, y as sucesivamente.
El ltimo criterio de ordenacin est dado por las puntuaciones obtenidas por los sustentantes en
contenidos de segundo nivel (por ejemplo, las reas) de mayor importancia del examen de mayor jerarqua,
despus el puntaje obtenido en el rea que le sigue de importancia, y as sucesivamente.
De manera excepcional, si despus de llevar a cabo el proceso anterior para generar las listas de
prelacin se observan empates entre algunos sustentantes, se recurrir a la misma lgica de ordenamiento
(ahora con conteo de aciertos), tomando como referente el segundo nivel de desagregacin de los contenidos
especficos, que cuenten con la mayor cantidad de reactivos y que formen parte del examen que ha sido
considerado como el de mayor relevancia. La jerarqua estar dada por el orden de la estructura del
instrumento.
A continuacin se describe la jerarqua de los instrumentos y la relevancia de los contenidos especficos
en cada uno de ellos para EB y EMS, referidos en los prrafos anteriores.
Criterios especficos de ordenamiento para
EB
Jerarqua de los instrumentos de evaluacin para los docentes

En EB los grupos de desempeo se definen de acuerdo con lo estipulado en la Tabla 2a, cuando el
proceso de evaluacin considera slo dos exmenes:
1 Examen de conocimientos y habilidades para la prctica docente
2 Examen de habilidades intelectuales y responsabilidades tico profesionales
La jerarquizacin de los contenidos especficos de primer nivel en cada uno de los instrumentos de
evaluacin se presenta en la Tabla 3:
Tabla 3. Jerarqua de los contenidos especficos de los instrumentos de evaluacin para Docentes en
EB
*Intervencin didctica en la educacin preescolar -en las modalidades de general e indgena- es

prioritaria porque se requiere considerar el desarrollo de los alumnos para incidir en la manera en que se
construyen los aprendizajes, respetando sus procesos cognitivos. De igual modo, porque los nios estn en
un periodo en el que la relacin afectiva determina su seguridad, desenvolvimiento y mantiene su curiosidad
por seguir aprendiendo. En este sentido, las habilidades para la prctica docente son fundamentales para la
educacin en este nivel educativo. Por lo tanto, la prioridad 1 es la Intervencin didctica y la 2 es Aspectos
curriculares.
**En la modalidad de telesecundaria, el docente imparte todas las asignaturas, y el contenido curricular
est determinado por los programas de televisin y los programas impresos. Por lo tanto, la primera prioridad
en este caso es Intervencin didctica, la cual es necesaria para que el docente articule el contenido curricular
de las diferentes asignaturas con un sentido formativo general, y la segunda prioridad es Aspectos curriculares.
Jerarqua de los instrumentos de evaluacin para tcnicos docentes
Se definen los grupos de desempeo de acuerdo con la Tabla 2a, ya que el proceso de evaluacin
considera slo dos exmenes:
(Primera Seccin)
DIARIO OFICIAL
La jerarquizacin de los contenidos especficos de primer nivel de los instrumentos de evaluacin se

presenta en la Tabla 4.
Tabla 4. Jerarqua de los contenidos especficos de los instrumentos de evaluacin para tcnicos
docentes en EB
Jerarqua de los instrumentos de evaluacin para docentes con una evaluacin complementaria
Para los casos en que el proceso de evaluacin considere un instrumento complementario, los grupos de
desempeo se indican en la Tabla 2b, ya que se consideran tres exmenes:
3 Examen complementario
La jerarquizacin de los contenidos especficos de segundo nivel de los instrumentos de evaluacin,
contemplar nicamente a los exmenes nacionales, en el orden descrito previamente en la Tabla 3.
Criterios especficos de ordenamiento para
EMS
Jerarqua de los instrumentos de evaluacin para docentes

Los grupos de desempeo para evaluar a los docentes se definen de acuerdo con lo estipulado en la
Tabla 2c, cuando el proceso de evaluacin considera cuatro exmenes:
1 Examen de conocimientos sobre contenidos disciplinares
2 Examen de conocimientos sobre habilidades docentes
3 Plan de clase
4 Exprese
La jerarquizacin de los contenidos especficos de segundo nivel de los instrumentos de evaluacin, se
considerar como criterio de relevancia el orden secuencial en que se organizan en las estructuras de los
instrumentos de evaluacin. Esto aplicar para el Examen de conocimientos sobre contenidos disciplinares y
el Examen de conocimientos sobre habilidades docentes.
Los instrumentos de evaluacin de Plan de clase y Exprese no ingresan al tercer nivel de ordenamiento
debido a que se evalan a travs de una rbrica.
Jerarqua de los instrumentos de evaluacin para docentes y tcnicos docentes de las disciplinas
asociadas al componente profesional tcnico
Los grupos de desempeo se indican en la Tabla 2b, ya que consideran 3 exmenes:
1 Examen de conocimientos sobre habilidades docentes
2 Plan de clase
3 Exprese
La jerarquizacin de los contenidos especficos de segundo nivel de los instrumentos de evaluacin, se
considerar como criterio de relevancia el orden secuencial en que se organizan en las estructuras de los
instrumentos de evaluacin. Esto aplicar para el Examen de conocimientos sobre habilidades docentes.
Los instrumentos de evaluacin de Plan de clase y Exprese no ingresan al tercer nivel de ordenamiento
debido a que se evalan a travs de una rbrica.
DIARIO OFICIAL
(Primera Seccin)
Anexo tcnico
Mtodo de Angoff
El mtodo de Angoff est basado en los juicios de los expertos sobre los reactivos y contenidos que se
evalan a travs de exmenes. De manera general, el mtodo considera que el punto de corte se define a
partir de la ejecucin promedio de un sustentante hipottico que cuenta con los conocimientos, habilidades o
destrezas que se consideran indispensables para la realizacin de una tarea en particular; los jueces estiman,
para cada pregunta, cul es la probabilidad de que dicho sustentante acierte o responda correctamente.
Procedimiento
Primero se juzgan algunas preguntas, con tiempo suficiente para explicar las razones de las respuestas al
grupo de expertos y que les permite homologar criterios y familiarizarse con la metodologa.
Posteriormente, se le solicita a cada juez que estime la probabilidad mnima de que un sustentante
conteste correctamente un reactivo, el que le sigue y as hasta concluir con la totalidad de los reactivos. La
suma de las probabilidades se expresar en una puntuacin esperada del examen para cada juez. Las
decisiones de los jueces se promedian obteniendo el punto de corte. La decisin del conjunto de jueces pasa
por una primera ronda para valorar sus puntos de vista en plenaria y puede modificarse la decisin hasta
llegar a un acuerdo en comn.
Mtodo de Beuk
En 1981, Cess H. Beuk propuso un mtodo para establecer estndares de desempeo el cual busca
equilibrar los juicios de expertos basados solamente en las caractersticas de los instrumentos de evaluacin,
lo que mide y su nivel de complejidad, con los juicios que surgen del anlisis de resultados de los aspirantes
una vez que un instrumento de evaluacin es administrado.
Procedimiento
En el cuerpo del documento se sealaron tres fases para el establecimiento de puntos de corte de los
niveles de desempeo. Para completar la tercera fase, es necesario recolectar con antelacin las respuestas
a dos preguntas dirigidas a los integrantes de los distintos Comits acadmicos especializados involucrados
en el diseo de las evaluaciones y en las fases anteriores. Las dos preguntas son:
a) Cul es el mnimo nivel de conocimientos o habilidades que un aspirante debe tener para aprobar el
instrumento de evaluacin? (Expresado como porcentaje de aciertos de todo el instrumento, k).
b) Cul es la tasa de aprobacin de aspirantes que los jueces estiman que aprueben el instrumento?
(Expresado como porcentaje, v).
Para que los resultados de la metodologa a implementar sean estables e integren diferentes enfoques
que contribuyan a la diversidad cultural, se debern recolectar las respuestas de al menos 30 especialistas
integrantes de los diferentes Comits acadmicos que hayan participado en el diseo de los instrumentos.
Adicionalmente, se debe contar con la distribucin de los aspirantes para cada posible punto de corte, con
la finalidad de hacer converger el juicio de los expertos con la evidencia emprica.
(Primera Seccin)
DIARIO OFICIAL
DIARIO OFICIAL
(Primera Seccin)
(Primera Seccin)
DIARIO OFICIAL
DIARIO OFICIAL
(Primera Seccin)
(Primera Seccin)
DIARIO OFICIAL
Para aplicar este mtodo basta con reemplazar estos coeficientes en las ecuaciones lineales antes
descritas. Por su parte, Kolen y Brennan proveen justificaciones para usar esta aproximacin.
Finalmente, como ya se indic en el cuerpo del documento, se debern considerar dos estrategias: a) si el
nmero de sustentantes es de al menos 100 en ambas formas, se utilizar el mtodo de equiparacin lineal
de Levine para puntajes observados; o bien, b) si el nmero de sustentantes es menor de 100 en alguna de
las formas, se utilizar el mtodo de equiparacin de identidad (identity equating).
Referencias
American Educational Research Association (AERA), American Psychological Association (APA) y
National Council on Measurement in Education (NCM). (2014). Standards for educational and psychological
testing. Washington, D.C.: American Educational Research Association.
Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational
Measurement (2nd ed.). Washington, DC: American Council on Education.
Beuk C. H. (1984). A Method for Reaching a Compromise between Absolute and Relative Standards in
Examinations. Journal of Educational Measurement, 21 (2) p. 147-152.
Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational
consequences. Educational Research Review 2: 13044.
Kendall, M. & Stuart, A. (1977). The advanced theory of statistics, Vol. 1: Distribution theory. 4 Ed. New
York, NY: MacMillan.
Kolen, M. & Brennan, R. (2010). Test Equating, Scaling, and Linking. New York, NY: Springer Verlag.
Rezaei, A. R. & Lovorn, M. (2010) Reliability and validity of rubrics for assessment through writing.
Assessing Writing 15 (1.) 1839.
Santiago, P. et. al. (2014). Revisiones de la OCDE sobre la Evaluacin en Educacin. Instituto Nacional
para la Evaluacin de la Educacin (INEE).
Won-Chan, L., Brennan, R. L., & Kolen, M. J. (2000). Estimators of Conditional Scale-Score Standard
Errors of Measurement: A Simulation Study. Journal of Educational Measurement, 37(1), 1-20.
Transitorios
Primero. Los presentes Criterios entrarn en vigor al da siguiente de su publicacin en el Diario Oficial de
la Federacin.
Segundo. Los presentes Criterios, de conformidad con los artculos 40 y 48 de la Ley del Instituto
Nacional para la Evaluacin de la Educacin, debern hacerse del conocimiento pblico a travs de la pgina
de Internet del Instituto www.inee.edu.mx.
Mxico, D.F., a seis de abril de dos mil quince.- As lo aprob la Junta de Gobierno del Instituto Nacional
para la Evaluacin de la Educacin en la Quinta Sesin Extraordinaria de dos mil quince, celebrada el seis de
abril de dos mil quince. Acuerdo nmero SEJG/5-15/03,R. La Consejera Presidenta, Sylvia Irene Schmelkes
del Valle.- Rbrica.- Los Consejeros: Eduardo Backhoff Escudero, Teresa Bracho Gonzlez, Gilberto
Ramn Guevara Niebla, Margarita Mara Zorrilla Fierro.- Rbricas.
El Director General de Asuntos Jurdicos, Agustn E. Carrillo Surez.- Rbrica.
(R.- 410293)

Crietrios - Técnicos para La Evaluación INEE

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Crietrios - Técnicos para La Evaluación INEE

Hochgeladen von

Copyright:

Verfügbare Formate

(Primera Seccin)

Viernes 24 de abril de 2015

INSTITUTO NACIONAL PARA LA EVALUACION DE LA

Calificacin: Proceso de asignacin de una puntuacin o nivel de desempeo logrado a partir

Confiabilidad: Cualidad de las mediciones obtenidas con un instrumento, que se caracterizan

Constructo: Elaboracin terica formulada para explicar un proceso social, psicolgico o

Correlacin punto biserial: Medida de consistencia que se utiliza en el anlisis de reactivos,

Criterio de evaluacin: Indicador de un valor aceptable sobre el cual se puede establecer o

Desempeo: Resultado obtenido por el sustentante en un instrumento de evaluacin educativa.

Dificultad de un reactivo: Indica la proporcin de personas que responden correctamente el

Se emplean las siglas

y EMS para referirse a la Educacin bsica y Educacin media superior, respectivamente y

Viernes 24 de abril de 2015

Distractores: Opciones de respuesta incorrectas del reactivo de opcin mltiple, que

Dominio: Conjunto de conocimientos, habilidades, destrezas, actitudes u otros atributos que

Error estndar de medida: Desviacin estndar de una distribucin hipottica de errores de

Especificaciones de tareas evaluativas o reactivos: Descripcin detallada de las

Estndar: Principio de valor o calidad en la conduccin y uso de los procedimientos de

Instrumento de evaluacin: Tcnicas de medicin y recoleccin de datos que suelen tener

Instrumento de evaluacin referido a un criterio: Instrumento que permite comparar el

Jueceo: Mtodo en el cual se utiliza la opinin de expertos (denominados jueces) para

Viernes 24 de abril de 2015

Medicin: Proceso de asignacin de valores numricos a atributos de las personas, objetos o

Nivel de desempeo: Criterio conceptual que delimita el marco interpretativo de las

Objeto de medida: Conjunto de caractersticas o atributos que se miden en el instrumento de

Parmetro: Valor de referencia que permite medir avances y resultados alcanzados en el

Perfil: Conjunto de caractersticas, requisitos, cualidades o aptitudes que deber tener el

Punto de corte: En instrumentos de evaluacin con referencia a un estndar de desempeo, es

Puntuacin: Nmero de aciertos obtenidos en un instrumento de evaluacin.

Sustentante: Aspirante a ingresar al Servicio Profesional Docente que da respuesta los

Tareas evaluativas: Unidad bsica de medida de un instrumento de evaluacin que consiste en

1. Criterios tcnicos para el anlisis e integracin de los instrumentos de evaluacin

Viernes 24 de abril de 2015

El segundo nivel de desagregacin deber considerar al menos dos subconjuntos de aspectos a

Exmenes de respuesta construida:

A partir de las definiciones operacionales se disearn los niveles o categoras de dominio.

Criterios y parmetros estadsticos

Los distractores debern tener correlaciones punto biserial negativas.

La confiabilidad del instrumento deber ser igual o mayor que 0.90.

Viernes 24 de abril de 2015

En el caso de los instrumentos basados en tareas evaluativas o reactivos de respuesta construida,

La confiabilidad del instrumento deber ser igual o mayor que 0.80.

El porcentaje de acuerdos inter-jueces deber ser mayor o igual a 70%.

Los distractores debern tener correlaciones punto biserial negativas.

La confiabilidad del instrumento deber ser igual o mayor que 0.80.

En el caso de los instrumentos basados en tareas evaluativas o reactivos de respuesta construida

La confiabilidad del instrumento deber ser igual o mayor que 0.70.

El porcentaje de acuerdos inter-jueces deber ser mayor o igual a 60%.

2. Procedimiento para el establecimiento de puntos de corte y estndares de desempeo

Viernes 24 de abril de 2015

Tabla 1. Descriptores genricos de los niveles de desempeo

Dominio insuficiente de los conocimientos y habilidades, contemplados en

Dominio suficiente y organizado de los conocimientos y habilidades,

Nivel III (N III)

Dominio suficiente y organizado de los conocimientos y habilidades,

Viernes 24 de abril de 2015

3. Proceso para la calificacin de los sustentantes

Compartir las mismas caractersticas tcnicas: estructura, especificaciones de reactivos, nmero de

Contar con una confiabilidad semejante.

Viernes 24 de abril de 2015

En la siguiente grfica puede observarse el nmero de aciertos obtenidos en dos instrumentos de

4. Resultado del proceso de evaluacin

Viernes 24 de abril de 2015