Sie sind auf Seite 1von 72

El marcador procedimiento puede ser visto como un lógico sucesor a una serie de eleme

nto de mapeo de las estrategias desarrolladas en los años 1990 , en conjunción con la
configuración estándar llevadas a cabo para la Evaluación
Nacional de Educación Progreso (NAEP) por los investigadores en América del Colegio de
Pruebas (ACT). Las primeras técnicas de mapeo de ítems se aplicaron
menos como establecimiento de estándares procedimientos per se que como mecanismos de
retroalimentación integrados en otros procedimientos (cf. Loomis y Bourque, 2001).
En 1996, por ejemplo, los investigadores en ACT emplean un elemento de mapeo de pro-
cedimiento en conjunción con un método que se refiere a como Mean Estimación,
que era esencialmente una extensión de la modificado Angoff (1971) técnica. Ese elemento de
mapeo procedimiento se aplica a las pruebas con tanto de opción múltiple y de respuesta
construida (Loomis, Bay, Yang, y Hanick , 1999). Elemento mapas se
utilizaron para proporcionar retroalimentación después de una segunda
ronda de partida calificaciones para el 1996 la evaluación de la Ciencia y la NAEP
1998 Civismo y escritura Assessment mentos . Los mapas muestran la ubicación de cada
elemento en relación a la NAEP- como escala de puntuación, la
cual fue también asociada con los diversos NAEP nivel de logro descriptores (ALD, los
cuales están ahora comúnmente se hace referencia a que el nivel de
rendimiento descriptores). Cada opción
múltiple artículo fue mapeado en conformidad con su probabilidad de respuesta correcta para
cada puntuación de la escala, y cada respuesta construida elemento se asigna una
vez para cada puntuación
de punto, que es, para la probabilidad de obtener una puntuación de 1, 2, 3
o más en cada punto de escala.
Las técnicas de mapeo de ítems evolucionaron a lo largo de varios estudios de
establecimiento de estándares NAEP en ACT. La tabla Reckase ( Reckase , 2001) se
introdujo como una forma de simplificar el conjunto de tareas ante los participantes. Con
los cuadros Reckase , los participantes recibirían sus estimaciones de ítems de la Ronda 2
(es decir, la probabilidad de una respuesta correcta por parte de un alumno en el puntaje de
corte para ítems de opción múltiple y el puntaje bruto estimado para ítems de respuesta
construida para este mismo alumno o grupo de alumnos ), junto con una tabla o "mapa"
preimpreso de probabilidades de elementos.
En la Tabla 10-1 se muestra una tabla de muestra de Reckase para un participante
individual. Se desarrollaría un gráfico Reckase único basado en las calificaciones de
los artículos de cada participante . La primera columna en el gráfico Reckase que
se muestra en la tabla
presenta puntajes escalados ordenados de mayor a menor . Los puntajes escalados se usan e
n los gráficos de Reckase como una medida de la competencia o habilidad general del
examinado en cualquier construcción que se mida por la prueba. Cada
una de las columnas restantes contiene información sobre un solo elemento. La Tabla 10-1
muestra información sobre cinco ítems: los ítems 1–4 se puntúan dicotómicamente
como ítems de formato de opción múltiple y el ítem 5 es un ítem de respuesta
construida calificado en una escala de 0–5. Para las opciones
múltiples artículos, los datos en cada columna indican la probabilidad de que un examinado
en cada puntuación en la escala de contestar correctamente ese artículo, basado en el de tres
parámetros elemento de respuesta del modelo. Por ejemplo, un examinado con un nivel de
habilidad general (es decir, puntaje escalado) de 170 tiene una probabilidad de .53 de
responder correctamente el ítem 1. Para los ítems de respuesta construida, los valores en
una columna muestran el puntaje esperado del ítem para los examinados en una ubicación
de puntaje escalado dado. Considerando de nuevo un examinado con un nivel de capacidad
de 170, la puntuación esperada de que examinado en el elemento de respuesta
construida (punto 5) es 1,8 a cabo de 5.
En la Tabla 10-1, un valor en cada columna aparece entre paréntesis; es de
esta manera que los gráficos Reckase se individualizan para cada participante. Cuando se
usa como retroalimentación en el estándar de ajuste, Reckase gráficos ayuda a los
participantes a medir
cómo constantemente se están aplicando su conceptualización de la mínimamente
competente examinando, limítrofe candidato, o lo que sea hipotética persona
examinada se considera. El Reckase diagrama de un participante que está aplicando
constantemente su o su conceptualización se muestran entre
paréntesis alineados en una sola fila. Por ejemplo, considere al participante cuyos juicios
resultaron
en los valores mostrados en la tabla. En adición, vamos nosotros suponemos que el particip
ante realizó una implícita conceptualización que la mínimamente cualificado examinado es
uno con un nivel de habilidad (representado por una calificación en escala) de 170. La
lectura a través de la fila de la tabla corresponde a un escalado puntuación de 170, nos ver
que la estimación de probabilidad (es decir, la calificación de Angoff ) generada por este
participante fue de .53; este participante dice que la probabilidad de que un examinado con
calificación mínima responda correctamente al punto 1 es .53. Ahora bien, si este
participante aplicaban su conceptualización de la mini- Mally examinando calificado
constantemente, él o ella habría generado
un Angoff calificación de 0.83 por artículo 2, 0,34 para el artículo 3, y de 0,77 para
el artículo 4. Por el de respuesta
construida artículo (artículo 5), este participante podría haber estimado
el mínimamente cualificado del examinando la puntuación a ser de 1,8 a cabo del 5.
Sin embargo, a partir del cuadro Reckase que se muestra en la Tabla 10-1, el participante
puede ver que no está haciendo juicios totalmente consistentes. Para los restantes tres de
opción múltiple artículos (puntos 2-
4), el participante ha estimado los artículos a ser más difícil de lo que son para una persona
examinada de capacidad de nivel 170. Por ejemplo, para
el artículo 2, el participante juzgados la persona examinada mínimamente cualificado tener
una probabilidad de .57 de éxito en el artículo cuando,
utilizando el estándar implícito en la calificación de este participante del Artículo 2, la califi
cación del Artículo 2 debería haber sido .83. Para el elemento de respuesta construida, el
revisor exhibió más coherente el comportamiento con su o su implícita estándar de
rendimiento como lo demuestra el hecho de que su calificación de Punto 5 del 1.5 está muy
cerca de la puntuación elemento de respuesta construida esperado de 1,8 para los
examinados con un total capacidad nivel de 170. Si este participante se siendo
perfectamente coherente, los corchetes valores serían ser alineados en una fila corre pondie
nte a un solo nivel de habilidad (escalado puntuación).
Tabla 10-1 puede ser pensado de como una temprana elemento mapa. A partir
de esta fundación, que era no un gran paso para redefinir el elemento de
mapeo procedimiento mediante la reordenación de los elementos en función de su
dificultad. Loomis, Hanick , Bahía, y Crouse (2000) informaron sobre pruebas de campo
para la prueba NAEP Civismo 1998 en el
que los ítem mapas fueron reordenados de menos a más difíciles artículo. Estas artículo ma
pas también incluyen breves descripciones de contenido de los ítems, lo que permitió a los
participantes, de un vistazo, para resumir tanto la ubicación y el contenido de un artículo
y para reformular sus propios juicios de esos artículos. De dificultad de los ítems
ordenados mapas con contenido de la información y
la probabilidad de correcta respuesta, el salto a un pedido de
prueba manual con semejante información era una corta pero sig uno signifi-. Los
investigadores de la CTB / McGraw-Hill dado ese salto y la intro ducido el método de
Marca (Lewis, Mitzel , y Green, 1996).

Descripción general del método de marcador

El procedimiento estándar de Bookmark ( Mitzel et al., 2001) es un conjunto completo de


actividades diseñadas para obtener puntajes de corte sobre la base de las revisiones de los
participantes de las colecciones de elementos de prueba . El marcador procedimiento es así
que nombrado debido a la par ticipantes expresan sus juicios por entrar en los
marcadores en un especial folleto diseñado que consiste en un conjunto de objetos
colocados en orden de dificultad, con artículos pedidos de más fácil a más
difícil. Este folleto, llamada una ordenada elemento folleto, se puede describir en mayor
detalle en la siguiente parte de este capítulo.
El procedimiento Bookmark se ha vuelto bastante popular por varias razones. En primer
lugar, desde un práctico punto de vista, el método puede ser utilizado para ,
complejas evaluaciones de formatos mixtos, y los participantes utilizando el método de
considerar-respuesta seleccionada (SR) y elementos de respuesta construida (CR) juntos. A
medida que aumenta la prevalencia de los exámenes de formato mixto, es probable que el
método Bookmark se use aún más y que se desarrollen otros enfoques innovadores para
establecer estándares de desempeño en tales contextos.
Tabla 10-1 Ejemplo de un gráfico de reconexión
NOTAS: Para los ítems de opción múltiple (Ítems 1–4) los valores entre paréntesis []
son calificaciones de Angoff de un participante ; para los ítems de respuesta
construida (Ítem 5) el valor entre paréntesis es el puntaje promedio estimado del
participante para un examinado mínimamente competente .

Fuente: Adaptado de Reckase (2001).

En segundo lugar, desde la perspectiva de aquellos a quienes se invitará a hacer


sentencias mentos a través
de este método, que presenta una relativamente sencilla tarea a los
participantes, y uno con el que, en un concepto de
nivel, que pueden ya estar familiarizado. Para comprender plenamente la medida en que el
método Favorito simplifica el establecimiento de normas de
trabajo, que es instructivo para considerar una prueba con cuatro rendimiento niveles ( Por
debajo Básico, Básico, Competente, y Avanzado ), 60 SR elementos, y cuatro elementos de
RC (con cuatro puntos de puntuación cada uno). Si a base de elemento de establecimiento
de normas métodos tales como la Angoff modificados o Angoff se utilizaron
procedimientos, los participantes tendrían 192 tareas separadas para llevar a cabo por ronda
de puntuaciones (es decir, tres de
probabilidad juicios para cada de 64 elementos). Con el procedimiento Marcador ,
el mismo participante aún puede considerar el contenido cubierto por los elementos en una
prueba, pero se requiere que realice solo tres juicios, uno para cada uno de los tres
marcadores ( Básico, Competente y Avanzado ) que se le pedirá que haga. colocar en un
folleto de prueba ordenado por dificultad (descrito con más detalle más adelante en
este capítulo). La tarea es quizá aún más aerodinámico debido
a que parecería razonable que el marcador de avanzada debe ser colocado después
de la señal para los Competente, y que el marcador de Competente debe ser
después el marcador para Basic. Por lo tanto , una
vez un participante ha identificado un corte de puntuación a través de la colocación de su o
de su marcador, que es no es
necesario para él o ella para iniciar la búsqueda para el próximo corte
de puntuación en el comienzo de la ordenada prueba
de folleto. En orden a hacer juicios sobre cada subsiguiente corte puntuación, los
participantes pueden examinar un rango relativamente estrecho de artículos en
lugar de volver a
examinar cada elemento y hacer una nueva estimación de la probabilidad de
un estudiante acaba apenas en un determinado rendimiento de nivel
de responder correctamente.
En tercer lugar, en adición a ser relativamente fácil para
los participantes, el método Favorito es también relativamente fácil para los que
se debe aplicar el pro cedimiento. Aunque algunos de los aspectos computacionales del
método son matemáticamente compleja, la mayor
parte de la intensa labor se hace mucho antes del establecimiento de normas sesión en
sí ocurre. Para aquellos que se realice este tipo de sesiones,
esto es una importante característica de la procedimiento que ayuda a reducir la posibilidad
de errores y el tiempo requerido para la reunión de establecimiento de normas.
Por último, a partir
de un psicométrica perspectiva, el método tiene ciertas zadas tajas debido a su base en la
teoría de respuesta al ítem (IRT) analiza y
porque de la fidelidad de la método de las pruebas de construcción técnicas que dio lugar
a la evaluación. Con pocas excepciones, la mayoría de los de alto riesgo, a gran
escala un ssessments están construidos en conformidad con un IRT modelo, ya
sea Rasch o 3PL. Los análisis normalmente llevadas
a cabo en la construcción y equiparación de estas pruebas hacen a base de
IRT normativos procedimientos un naturales exten sion. Una vez que
los participantes proporcionan números de página , los valores theta asociados tienen una
relación incorporada con los puntajes, y los resultados se pueden interpretar de la misma
manera que otros procedimientos realizados con estas pruebas. En ausencia de otros
procedimientos de establecimiento de normas basados en IRT, el procedimiento de
marcador es una opción natural .

El folleto del artículo pedido

Tal vez la característica más distintiva del método de marcadores es la


colección de artículos que sirve como el enfoque de los participantes juicios. Este
folleto, llamada una ordenada elemento folleto (OIB), puede contener ambos SR elementos
de formato, como opción múltiple, y artículos CR entremezclados en el mismo folleto. Un
elemento SR aparece en el OIB una vez, en una ubicación determinada por su dificultad
(generalmente su valor IRT b ). Cada elemento CR aparece varias veces en el folleto, una
vez para cada uno de sus puntos de puntuación . Para una aplicación típica del
procedimiento, cada elemento SR tendrá un índice de dificultad asociado, y cada elemento
CR tendrá tantas funciones de paso (dificultad) como puntos de puntuación (excluyendo
cero). Para una entrada dada CR, el elemento rápido y la rúbrica para un punto determinado
puntaje ordinariamente también ser proporcionado a los participantes, junto con la
muestra respuestas que ilustra que la puntuación punto.
El OIB puede estar compuesto por cualquier colección de elementos
que abarquen el rango de contenido, tipos de elementos y dificultades representados en
una prueba típica y no necesita consistir solo en elementos que han aparecido en una prueba
intacta. Este folleto puede tener más artículos o menos artículos que un formulario
de prueba operacional . Una ventaja de permitir artículos más allá de los incluidos en
un formulario de prueba operacional es el hecho de que las lagunas en la dificultad de los
artículos o la cobertura de contenido se pueden llenar con artículos
de un banco. Por ejemplo, si dos adyacentes artículos en la ordenada folleto tienen índices de
dificultad de 1,05 y 1,25 logits, los artículos adicionales con índices de
dificultad de 1,10, 1,15, y 1,20 podría ser insertado a ayudar normativos par ticipantes colocan
sus marcadores más precisamente. Por el contrario, una clara ventaja de usar un formulario
de prueba intacto para la configuración estándar usando el método Bookmark es el hecho de
que los resultados se pueden interpretar de manera directa; a saber, el folleto de prueba en
el que se establecen los estándares es el mismo conjunto de elementos en los que se basan
los puntajes de los estudiantes y (a veces las decisiones de alto riesgo) .
La Figura 10-1 muestra el diseño general de un OIB hipotético . Como se indicó
anteriormente,
los elementos en el OIB aparecen uno por página. Cada elemento SR aparece en
una sola página; cada CR artículo está incluido en la OIB un número de veces igual
a la cantidad de posibles puntuación de puntos (excluyendo cero) asociado con el artículo, a
lo largo con uno o más de muestra respuestas en que la puntuación punto. Por lo
tanto, un ítem puntuado en una escala de 5 puntos (0–4) y, por lo tanto, que tiene cuatro
puntos distintos de cero (es decir, 1, 2, 3, 4 ) se representaría en cuatro páginas diferentes
en la OIB. Estas configuraciones se muestran en la Figura 10-1. Los números en negrita en
la parte superior derecha de cada página ilustrada en la figura simplemente indican la
secuencia de los elementos en el OIB (es decir, paginación). Los números en la parte
superior izquierda indican las posiciones en el formulario de prueba en
las que se basa el OIB . Por ejemplo, el elemento
que aparece en la primera página de la OIB apareció como Elemento 13, un elemento SR,
en el formulario de prueba intacto. Debe notarse que algunos de
estos números en la esquina superior izquierda de las páginas OIB tienen guiones. Estos
números se refieren a la original, artículo número y la puntuación de punto representado en
la que la página. Por ejemplo, la segunda página en el OIB representa una respuesta que
obtiene una puntuación de 1 al elemento original 29 (un elemento CR); La página 50 en el
OIB contiene la respuesta que obtuvo el puntaje más alto (es decir, 4) en otro ítem CR (ítem
15 en el formulario de prueba intacto original). En un OIB real, se incluiría información
más allá de la paginación simple y los números de artículo originales. Más adelante en
este capítulo se presenta una descripción más detallada y una ilustración de la información
que generalmente se proporciona en una página OIB .
Figura 10-1 Ilustración hipotética de un folleto de artículo pedido

El valor de probabilidad de respuesta (RP)

En el marcador procedimiento, los básicos de interrogación participantes deben respuesta


es “es que es
probable que la mínimamente cualificado o borderline examinado será responder a este
tema SR correctamente (o ganar este punto puntuación elemento CR)?” Obviamente, es
importante para definir “probable” o para poner en práctica esta regla de decisión . En
la práctica , el procedimiento Marcador emplea una probabilidad del 67% (o, a veces, una
probabilidad de 2/3) de la respuesta deseada (es decir, obtener el elemento SR correcto o
alcanzar un cierto punto de puntuación CR o superior).
En los más de 30 años que han intervenido entre la introducción de los Angoff y métodos
de marcadores, no ha habido un considerable experi mentación con la
toma reglas. Huynh (2000, 2006) ha argumentado que el valor de la
habilidad del problema que maximiza la información de la respuesta correcta
produciría la regla de decisión óptima. Como resultado, para un modelo de tres
parámetros con el parámetro de adivinanzas eliminado (es decir, un modelo de dos
parámetros ), una probabilidad del 67% (es decir, una probabilidad de respuesta [RP] de .67)
optimiza este valor. Por lo tanto la regla de decisión típica para el procedimiento de
marcador es 0,67, aunque otros porcentajes (que van de .50 a .80) son también a
veces utilizados.
En un contexto de modelo Rasch , Wang (2003) ha expresado una preferencia
por un 50 % de probabilidad (RP  .50). De
hecho, la elección de .50 para el modelo Rasch tiene ciertas ventajas prácticas sobre .67 en
que la probabilidad de una respuesta correcta es exactamente .50 cuando la habilidad del
examinado es igual a la dificultad del ítem . Wang señaló a cabo, sin
embargo, que la cuestión debería no se considera resuelto y urgió aún más la
investigación en la eficacia de la 0,50 decisión regla en Rasch aplicaciones. A pesar de la
diferencia en un primer momento puede parecer trivial,
siguiendo tanto la sugerencia de los originadores de la Marca procedimiento y nuestra
propia experiencia en implementin g el método de marcadores, nuestros diez dencia es usar
una regla de decisión de 2/3. También notamos que tendemos a expresar la regla de
decisión de esta manera (en lugar de como RP  .67). Por supuesto, enmarcar el problema
como una regla de decisión de 2/3 o como un n RP de .67 es (al menos matemáticamente )
casi lo mismo. En nuestra experiencia, sin embargo, los participantes que establecen
estándares parecen
ser más capaces de comprender y trabajar con la noción de "dos de tres" más fácilmente qu
e una probabilidad de .67.

Probabilidades de respuesta y conjunto de folletos de elementos pedidos: modelo Rasch

Como ya puede ser obvio, la elección de una regla de decisión (o valor de RP ) es


esencial para el ensamblaje de
las OIB y para el cálculo de las puntuaciones de corte cuando se utiliza
el método Bookmark . En la siguiente descripción, que suponemos que
un Rasch modelo ha sido utilizado para la prueba de la construcción, elemento de
calibración, y así en y que una decisión de la regla de 2/3 ha sido incorporado en la
formación, los participantes de la práctica, y OIB de calificación de
actividades. Nosotros empezamos con la básica de
Rasch ecuación, establecer sucesivamente en Wright y piedra (1979), el
cual expresa la proba - bilidad de responder a un artículo correctamente, p (x  1), en
función de la dificultad del tema (  j ) y la capacidad del examinado (  i ):

p(x 1 |  i ,  j )  exp (  i   j ) /

[1  exp (  i   j )] (Ecuación 10-1)

Ahora, estableciendo p igual a 2/3 y resolviendo para  i obtenemos

exp (  i   j ) / [1  exp (  i   j )]  2/3 (Ecuación 10-

2) exp (  i   j )  2/3 * [1  exp (  i   j )] (Ecuación 10-

3) exp (  i   j )  2/3  2/3 * exp (  i   j ) (Ecuación 10-

4) exp (  i   j )  2/3 * exp (  i   j )  2/3 (Ecuación 10-5) 1/3

* exp (  i   j )  2/3 (Ecuación 10-6)

exp (  i   j )  2/3  1/3 (Ecuación 10-7)

exp (  i   j )  2 (Ecuación 10-8) Por último, teniendo el natural

de registro de ambos lados de la Ecuación 10  8, que obtener

 i   j  . 693 y (Ecuación 10-9)

 i   j  .693 (Ecuación 10-10)

El lector que está familiarizado con el trabajo de Wright y de piedra (1979) va a darse
cuenta de que nos hemos utilizado ligeramente diferente notación de que
la fuente. Nuestra sustitución de  y  que representan la capacidad
examinado y elemento dificultad, respectivamente, es un intento de hacer
que la notación utilizada en el anterior Explica ción más coherente con la norma noción a
través
de la familia de IRT modelos. (Nosotros deberíamos también observamos otra pequeña pero i
mportante diferencia entre un 2/3 decisión regla y un RP67 regla. Si una respuesta de
probabilidad de 0,67 había sido utilizada, la ecuación 10-10 podría haber
sido  i   j  0,708; que es, se podría haber sido calculada por tomar la del elemento de
dificultad , más la natural, logaritmo de 0.67 / 0.33.) el uso de la última consecuencia de la
ecuación 10-10 para montar la OIB es sencillo. Para artículos SR, para calcular el valor
de  i necesario para tener una oportunidad de responder a un tema determinado
correctamente SR 2/3, pero se añaden 0,693
a la Rasch dificultad valor para que artículo, donde la Rasch dificultad de la que se obtiene
un elemento mediante el uso de un programa de calibración IRT (por ejemplo,
WINSTEPS). Como es quizás evidente, cuando la Rasch modelo se utiliza para crear un OI
B con artículos SR, el procedimiento se acaba de describir se traducirá en el mismo orden
de las
partidas en la OIB como si el folleto había sido ensamblada usando los artículos b val ues.
Este resultado sería no es probable ocurrir, sin embargo, para
los artículos calibrados usando un 2PL o modelo 3PL. Como veremos un poco más
adelante, estos mismos valores utilizados para determinar la ubicación de
los elementos SR en el folleto de prueba ordenado por dificultad también se utilizan para
determinar el puntaje bruto asociado con la configuración de un marcador justo después
de este elemento en el OIB.
Localizar la ubicación adecuada de los elementos CR en el OIB es solo un poco
más complicado. Para localizar los puntos de puntaje de los ítems de CR en el OIB dentro
de un marco Rasch , se utiliza el Modelo de crédito parcial (PCM; Wright & Masters,
1982). En la siguiente discusión, el procedimiento se ilus -
trated para un CR artículo con cinco puntuación de puntos (0, 1, 2, 3, 4 ); sin
embargo, la lógica se aplica a elementos con cualquier número de pasos.
Para empezar, para CR artículos, la probabilidad (  nix ) de una persona con un dado A

bil dad (  n ) la obtención


de cualquier dado puntuación ( j ) en cualquier punto ( i ) se muestra en el seguimiento ecua
ción ing, tomada de Wright y Maestros (1982, ecuación 3.1.6):
 nix 

exp  (  n   ij )

 exp  (  n   ij ) (Ecuación 10-11)

En Wright y de Masters formulación, las dificultades asociadas con cada punto de la


puntuación se refiere a como funciones escalonadas y están simbolizados generalmente como
 ij . La función de paso para el punto de puntuación 0 se establece igual a 0 en

la ecuación 10-11; que es decir,  i0 ≡ 0, tal que

 (  n   ij )  0, y exp  (  n   ij )  1 (Ecuación 10-12) Los valores del


numerador para los otros pasos son derivadas como sigue:
Paso 1 .  (  n   ij )   (  n   i0 )   n   i1

 0   n   i1

  n   i1 (Ecuación 10-13)

Paso 2 . Por lógica similar:  (  n   ij )  2  n   i1   i2 (Ecuación 10-


14)

Paso 3 . Por lógica similar:  (  n   ij )


 3  n   i1   i2   i3 , y (Ecuación 10-15)
Paso 4 . Por lógica similar:  (  n   ij )

los

 4  n   i1   i2   i3   i4 (Ecuación 10-16)

Los valores exponenciales de estas sumas que se muestran en las ecuaciones 10-12 a
10-16 son simplemente el logaritmo natural e elevado a los valores respectivos, es decir:

Paso 0 . exp ( 0) (Ecuación 10-17)

Paso 1 . exp (  n   i1 ) (Ecuación 10-18)

Paso 2. exp ( 2  n   i1   i2 ) (Ecuación 10-19)

Paso 3 . exp ( 3  n   i1   i2   i3 ) (Ecuación 10-20)

Paso 4 . exp ( 4  n   i1   i2   i3   i4 ) (Ecuación 10-


21)

El denominador de la ecuación 10-11 ahora se convierte


en la suma simple de los valores he producidos por las ecuaciones 10-17 a 10-21 para
los pasos 0-4. Por último, la deseada final la probabilidad de la obtención
de cualquier dado puntuación (0 a través de 4 ) - se calcula por dividiendo el numerador
asociado con ese punto de puntuación por
este común denominador. Estos cálculos pueden ser llevadas a cabo por la mano o
con diversos software programas, tales como SPSS, SAS, o Excel. Un procedimiento paso a
paso para el uso de Excel para calcular los adecuados OIB ubicaciones para elemento
CR puntuación de puntos se proporcionan en la Tabla 10-2. El Excel hoja de cálculo en la
que la tabla se basa está disponible con los otros electrónicos materiales acompa~nan ing este
libro en www.sagepub.com/cizek/bookmark.
Como una inicial de
verificación en la precisión de los valores obtenidos, comenzar por locat ing los valores en l
as columnas N-Q. Lea abajo la columna de valores hasta
.5000 o se encuentra el valor más cercano a .5000. Luego, simplemente lea en la
fila desde este valor hasta
la columna A para encontrar el valor correspondiente de  n . Este valor de  n debe
corresponder con el valor de umbral de Thurstone informado en WINSTEPS. Después de
haber verificado que el RP50 valor corresponde a la Thurstone valor umbral, continuar por
columnas N-Q (en función de la puntuación de punto deseado) para encontrar el valor más
cercano a 0,6667, o utilizar interpola ción para obtener un valor exacto. Nuevamente, lea a
través de la fila hasta la columna A para
encontrar el valor correspondiente de  . Este valor es el nivel
de habilidad (o logro) asociado con una probabilidad de 2/3 de obtener el punto
de puntaje particular o mejor en el ítem CR. Estos valores se utilizan para determinar la
ubicación de los puntos de puntaje para los elementos de CR en el OIB y para calcular los
puntajes brutos asociados con el establecimiento de un marcador justo después
de este elemento / punto de puntaje .

Otros programas de software pueden ser utilizados para el cálculo


de la RP50 y RP67 (o valores P2 / 3) sin mostrar todos los resultados de todos los pasos
intermedios. En nuestra experiencia, sin embargo, es a menudo
útil para ser capaz de revisar todos los valores intermedios, ya
que pueden ser utilizados para crear curvas características del
ítem y para comprobar la exactitud de los resultados a lo
largo del camino. Por ejemplo, como
hemos aludido a anteriormente, Winsteps produce un valor de umbral para cada paso de
un CR elemento, que es equiva prestado a la valor RP50 para el artículo. La Tabla 10-3
muestra una parte de una hoja de cálculo de
Excel para un conjunto de cálculos para un elemento CR hipotético de 4
puntos donde los elementos para la prueba se escalaron utilizando el modelo Rasch . Los
valores de paso asociados con cada uno de los cuatro puntos de
puntuación se proporcionan en la parte inferior de la tabla. La Figura 10-2
muestra las curvas características
de respuesta asociadas con cada opción para ese elemento, y la Figura 10-
3 muestra las curvas asociadas con la probabilidad de obtener una puntuación
dada o mejor en el mismo elemento.

Probabilidades de respuesta y conjunto de folletos de elementos pedidos: modelo 2PL

Mitzel y col. (2001) señalan que la probabilidad de una respuesta correcta, p (x  1), a
un elemento de SR dado es una función de la capacidad examinado (  ), punto dif difi-
(b j ), elemento de discriminación (a j ), y un umbral o probabilidad variable de (c j )
en conformidad con la fundamental ecuación de la de tres parámetros Logis tic
(3PL) modelo:

p(x 1 |  )  c j  (1  c j ) /

{1  exp [  1.7a j (   b j )]} (Ecuación 10-22)

donde c j es la asíntota inferior o valor umbral del artículo (la probabilidad de


que un estudiante extremadamente baja puntuación sería responder correctamente al
adivinar), un j es la discriminación índice de la artículo, y b j es la dificultad de la artíc
ulo. En la práctica, Mitzel et al. (2001) y otros que usan este modelo establecen el
umbral o parámetro de probabilidad (c j ) igual a cero, reduciendo la ecuación 10-
22 a lo siguiente:

P j (  )  1 / {1  exp [  1.7a j (   b j )]} (Ecuación 10-


23) o un modelo logístico de dos parámetros (2PL) .
En el procedimiento descrito por Mitzel et al. (2001), la pregunta básica de establecimiento
de normas es si un examinado que apenas califica para un nivel de rendimiento dado
tendría una probabilidad de 2/3 de responder a un elemento de SR determinado

Tabla 10-2 Instrucciones de Excel para calcular


la capacidad (  n ) para una probabilidad de respuesta
especificada (RP)

Columna Código de Excel / Instrucciones [Explicación]

UNA Ingrese valores de  de  4 a  4 en


incrementos de .01 (es
decir,  4.00,  3.99,  3.98, etc.).

si Ingrese 1 en cada fila. [Valor del numerador para el


paso 0.]

C  exp ( valor en Col. A   i1 ). [Valor del


numerador para el Paso 1.] Copie a las filas
restantes en esta columna.

re  exp (2 * valor en col.


A   i1   i2 ). [Valor del numerador para el
paso 2.] Copie a las filas restantes en esta columna.

mi  exp ( valor 3 * en col.


A   i1   i2   i3 ). [Valor del
numerador para el paso 3.] Copie a las filas
restantes en esta columna.

F  exp ( valor 4 * en col.


A   i1   i2   i3   i4 ). [Valor del
numerador para el paso 4.] Copie a las filas
restantes en esta columna.
sol  suma ( valores en col. B  F). [Denominador.]
Copie a las filas restantes en esta columna.

H  (valor en col. B) / ( valor en col. G). [Valor de


probabilidad para el paso 0.] Copie a las filas restantes
en esta columna.

yo  (valor en col. C) / ( valor en col. G). [Valor de


probabilidad para el Paso 1.] Copie a las filas
restantes en esta columna.

J  (valor en col. D) / ( valor en col. G). [Valor de


probabilidad para el paso 2.] Copie a las filas
restantes en esta columna.

K  (valor en col. E) / (valor en col. G). [Valor de


probabilidad para el Paso 3.] Copie a las filas
restantes en esta columna.

L  (valor en col. F) / ( valor en col. G). [Valor de


probabilidad para el paso 4.] Copie a las filas restantes
en esta columna.

METRO  suma ( valores en col. H  L). [Suma de los


valores de probabilidad.] Copie a las filas restantes
en esta columna. Nota: Esto se puede usar como
una verificación de la precisión de los valores
calculados. Para cualquier valor dado de  n , la
suma de las probabilidades debe ser 1.00.

norte  suma ( valores en col. I  L). [Probabilidad


de obtener una puntuación de 1 o mejor.] Copie a
las filas restantes en esta columna.

O  suma ( valores en col. J  L). [Probabilidad


de obtener una puntuación de 2 o mejor.] Copie a
las filas restantes en esta columna.
PAGS  suma ( valores en col. K  L). [Probabilidad
de obtener una puntuación de 3 o mejor.] Copie a
las filas restantes en esta columna.

Q  (valor en col. L). [Probabilidad de obtener una


puntuación de 4]. Copie a las filas restantes en esta
columna.

Tabla 10-3 Entradas y cálculos seleccionados de la hoja de cálculo para un


artículo hipotético de 4 puntos CR , escala de rasch

N De PAGS PAGS
u no
m m
e
The
r
ta
a
d
o
r

1 2 3
o o o
00 1 2 3 4 4 Su 0 0 1 2 3 4 4 Tot me me me 4 4
ma al jor jor jor

 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
4.0 00 07 00 00 00 075 926 074 001 000 000 000 74 01 00 00
0 0 4 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0,9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 07 00 00 00 076 925 075 001 000 000 000 75 01 00 00
9 0 5 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 07 00 00 00 077 924 075 001 000 000 000 76 01 00 00
8 0 6 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 07 00 00 00 077 923 076 001 000 000 000 77 01 00 00
7 0 7 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 07 00 00 00 078 922 077 001 000 000 000 78 01 00 00
6 0 8 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 07 00 00 00 079 922 078 001 000 000 000 78 01 00 00
5 0 8 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 07 00 00 00 080 921 078 001 000 000 000 79 01 00 00
4 0 9 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 08 00 00 00 081 920 079 001 000 000 000 80 01 00 00
3 0 0 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 08 00 00 00 081 919 080 001 000 000 000 81 01 00 00
2 0 1 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 08 00 00 00 082 919 081 001 000 000 000 81 01 00 00
1 0 1 1 0 0 0
 1.0 0.0 0,0 0.0 0.0 1.0 0.9 0.0 0,0 0.0 0.0 1.0 0.00 0,00 0.00 0.0
3.9 00 08 00 00 00 083 918 082 001 000 000 000 82 01 00 00
0 0 2 1 0 0 0

1,6 1.0 2.0 4.3 5.1 2.3 14, 0,0 0.1 0.2 0,3 0.1 1.0 0.93 0,79 0.49 0.1
4 00 95 92 03 16 909 671 406 946 423 554 000 29 23 77 55
0 9 9 9 4 4
1,6 1.0 2.1 4.4 5.2 2.4 15, 0,0 0.1 0.2 0,3 0.1 1.0 0,93 0,79 0,50 0.1
5 00 17 81 59 10 268 655 386 935 444 579 000 45 59 23 57
0 0 7 3 9 9
1,6 1.0 2.1 4.5 5.4 2.5 15, 0,0 0.1 0.2 0,3 0.1 1.0 0.93 0.79 0,50 0.1
6 00 38 72 19 09 639 639 367 924 465 604 000 61 93 70 60
0 3 2 5 3 4
1,6 1.0 2.1 4.6 5.5 2.6 16. 0,0 0.1 0.2 0,3 0.1 1.0 0.93 0,80 0,51 0.1
7 00 59 64 84 11 020 624 348 912 486 630 000 76 28 16 63
0 8 6 5 7 0
1,6 1.0 2.1 4.7 5.7 2.7 16, 0,0 0.1 0.2 0,3 0.1 1.0 0.93 0,80 0,51 0.1
8 00 81 58 54 18 413 609 329 899 506 656 000 91 62 62 65
0 5 8 6 3 6
1,6 1.0 2.2 4.8 5.9 2.8 16, 0,0 0.1 0.2 0.3 0.1 1.0 0.94 0,80 0.52 0.1
9 00 03 55 29 29 817 595 310 887 526 682 000 05 95 08 68
0 4 0 9 2 2
N De PAGS PAGS
u no
m m
e
Th
r
et
a
a
d
o
r

1 2 3
o o o
00 1 2 3 4 4 Su 0 0 1 2 3 4 4 To me me me 4 4
ma tal jor jor jor

1, 1.0 2.2 4.9 6.1 2.9 17. 0,0 0,1 0.2 0.3 0.1 1.0 0,94 0.81 0,52 0.1
7 00 25 53 10 44 233 580 291 874 546 709 00 20 28 54 70
0 0 5 0 4 7 0 9
1, 1.0 2.2 5.0 6.2 3.0 17, 0,0 0,1 0.2 0.3 0.1 1.0 0,94 0.81 0,53 0.1
7 00 47 53 96 64 662 566 273 861 565 735 00 34 61 00 73
1 0 9 1 5 9 0 5
1, 1.0 2.2 5.1 6.4 3.1 18. 0,0 0,1 0.2 0.3 0.1 1.0 0,94 0.81 0,53 0.1
7 00 70 55 88 89 103 552 254 848 584 762 00 48 93 46 76
2 0 5 2 3 9 0 2
1, 1.0 2.2 5.2 6.6 3.3 18, 0,0 0,1 0.2 0,3 0.1 1.0 0.94 0,82 0,53 0.1
7 00 93 59 85 20 558 539 236 834 603 789 00 61 25 92 78
3 0 3 3 9 1 0 9
1, 1.0 2.3 5.3 6.8 3.4 19. 0,0 0,1 0.2 0.3 0,1 1.0 0.94 0.82 0,54 0,1
7 00 16 65 89 55 027 526 217 820 621 816 00 74 57 37 81
4 0 4 6 5 6 0 6
1, 1.0 2.3 5.4 7.0 3.5 19. 0,0 0.1 0.2 0.3 0,1 1.0 0.94 0.82 0,54 0,1
7 00 39 73 99 96 509 513 199 806 639 844 00 87 88 82 84
5 0 6 9 3 6 0 4
1, 1.0 2.3 5.5 7.3 3.7 20. 0,0 0.1 0.2 0.3 0.1 1.0 0.95 0,83 0,55 0.1
7 00 63 84 15 43 006 500 181 791 657 871 00 00 19 28 87
6 0 2 5 5 4 0 1
1, 1.0 2.3 5.6 7.5 3.8 20. 0,0 0.1 0.2 0.3 0,1 1.0 0,95 0.83 0,55 0,1
7 00 86 97 38 96 518 487 163 777 674 899 00 13 49 53 89
7 0 9 3 3 2 0 9
1, 1.0 2.4 5.8 7.7 4.0 21. 0,0 0.1 0.2 0.3 0,1 1.0 0,95 0.83 0,56 0,1
7 00 10 12 67 55 046 475 146 762 691 927 00 25 79 18 92
8 0 9 4 9 2 0 7
1, 1.0 2.4 5.9 8.0 4.2 21. 0,0 0.1 0.2 0,3 0.1 1.0 0,95 0.84 0,56 0.1
7 00 35 29 04 20 590 463 128 747 707 955 00 37 09 62 95
9 0 1 9 5 7 0 5
1, 1.0 2.4 6.0 8.2 4.3 22, 0,0 0.1 0.2 0.3 0.1 1.0 0,95 0,84 0,57 0.1
8 00 59 49 48 92 150 451 110 731 724 983 00 49 38 07 98
0 0 6 6 2 9 0 3
1, 1.0 2.4 6.1 8.4 4.5 22, 0,0 0.1 0.2 0.3 0.2 1.0 0,95 0,84 0,57 0.2
8 00 84 71 99 72 727 440 093 716 740 012 00 60 67 51 01
1 0 3 9 4 2 0 2
1, 1.0 2.5 6.2 8.7 4.7 23, 0,0 0,1 0.2 0,3 0.2 1.0 0,95 0.84 0.57 0.2
8 00 09 96 58 58 322 429 076 700 755 040 00 71 95 96 04
2 0 3 5 3 8 0 0
1, 1.0 2,5 6.4 9.0 4.9 23, 0,0 0,1 0.2 0.3 0.2 1.0 0,95 0,85 0,58 0.2
8 00 34 23 25 53 936 418 059 684 770 069 00 82 23 40 06
3 0 5 7 0 0 0 9
1, 1.0 2,5 6.5 9.2 5.1 24, 0,0 0,1 0.2 0.3 0.2 1.0 0.95 0.85 0,58 0.2
8 00 60 53 99 55 568 407 042 667 785 098 00 93 51 84 09
4 0 0 5 9 2 0 8
1, 1.0 2.5 6.6 9.5 5.3 25, 0,0 0,1 0.2 0.3 0.2 1.0 0.96 0.85 0,59 0.2
8 00 85 85 83 65 220 397 025 651 800 127 00 03 78 27 12
5 0 7 9 1 6 0 7
1, 1.0 2.6 6.8 9.8 5.5 25, 0,0 0.1 0.2 0.3 0.2 1.0 0,96 0.86 0.59 0.2
8 00 11 21 74 84 892 386 009 634 814 157 00 14 05 71 15
6 0 7 0 9 5 0 7
1, 1.0 2.6 6.9 10. 5.8 26. 0,0 0,0 0.2 0.3 0,2 1.0 0.96 0.86 0,60 0,2
8 00 37 58 17 12 584 376 992 618 828 186 00 24 32 14 18
7 0 9 8 5 4 0 6
1, 1.0 2,6 7.0 10. 6.0 27, 0,0 0,0 0.2 0.3 0.2 1.0 0,96 0.86 0,60 0.2
8 00 64 99 48 49 299 366 976 601 841 216 00 34 58 57 21
8 0 5 3 5 6 0 6

(Continuado)

Tabla 10-3 (continuación)


N De PAGS PAGS
u no
m m
e
r
a
d
o
r

1 2 3
o o o
Th 0 0 1 2 3 44 Su 0 0 1 2 3 4 4 To me me me 4 4
et m tal jor jor jor
a a

1, 1.0 2,6 7.2 10. 6.2 28. 0,0 0,0 0.2 0.3 0.2 1.0 0.96 0.86 0.61 0.2
8 00 91 42 80 96 03 357 960 583 854 246 00 43 83 00 24
9 0 2 7 4 5 5 0 6
1, 1.0 2.7 7.3 11. 6.5 28, 0,0 0,0 0.2 0.3 0.2 1.0 0.96 0.87 0.61 0.2
9 00 18 89 13 53 79 347 944 566 867 276 00 53 09 43 27
0 0 3 1 4 5 4 0 6
1, 1.0 2.7 7.3 11. 6.5 28, 0,0 0,0 0.2 0.3 0.2 1.0 0.96 0.87 0.61 0.2
9 00 18 89 13 53 79 347 944 566 867 276 00 53 09 43 27
0 0 3 1 4 5 4 0 6
1, 1.0 2.7 7.5 11. 6.8 29, 0,0 0,0 0.2 0.3 0.2 1.0 0.96 0,87 0.61 0.2
9 00 45 38 47 21 57 338 928 549 879 306 00 62 34 85 30
1 0 6 3 3 0 7 0 6
1, 1.0 2.7 7.6 11. 7.0 30, 0,0 0,0 0.2 0.3 0.2 1.0 0.96 0.87 0.62 0.2
9 00 73 90 82 99 38 329 913 531 891 336 00 71 58 27 33
2 0 2 6 2 3 5 0 6
1, 1.0 2.8 7.8 12. 7.3 31, 0,0 0,0 0.2 0,3 0.2 1.0 0,96 0.87 0.62 0.2
9 00 01 46 18 89 21 320 897 513 902 367 00 80 82 69 36
3 0 1 0 2 1 8 0 7
1, 1.0 2.8 8.0 12. 7.6 32. 0,0 0,0 0.2 0,3 0.2 1.0 0.96 0.88 0.63 0.2
9 00 29 04 55 90 07 312 882 495 913 397 00 88 06 11 39
4 0 2 5 3 6 7 0 7
1, 1.0 2.8 8.1 12, 8.0 32, 0,0 0,0 0.2 0.3 0.2 1.0 0.96 0,88 0.63 0.2
9 00 57 66 93 04 96 303 867 477 924 428 00 97 30 52 42
5 0 7 2 5 5 4 0 8
1, 1.0 2,8 8.3 13, 8.3 33, 0,0 0,0 0.2 0.3 0.2 1.0 0.97 0,88 0.63 0.2
9 00 86 31 32 31 87 295 852 459 935 459 00 05 53 94 45
6 0 4 1 9 1 8 0 9
1, 1.0 2.9 8.4 13. 8.6 34, 0,0 0,0 0.2 0.3 0.2 1.0 0.97 0,88 0,64 0.2
9 00 15 99 73 71 82 287 837 441 945 490 00 13 76 35 49
7 0 4 4 5 1 1 0 0
1, 1.0 2.9 8.6 14. 9.0 35, 0,0 0,0 0.2 0.3 0.2 1.0 0.97 0,88 0.64 0.2
9 00 44 71 15 25 79 279 823 422 954 521 00 21 98 76 52
8 0 7 1 4 0 4 0 1
1. 1.0 2.9 8.8 14, 9.3 36, 0,0 0,0 0.2 0.3 0.2 1.0 0,97 0.89 0.65 0.2
9 00 74 46 58 93 79 272 808 404 963 553 00 28 20 16 55
9 0 3 3 5 3 9 0 3
2, 1.0 3.0 9.0 15. 9,7 37. 0,0 0,0 0,2 0.3 0.2 1.0 0.97 0,89 0.65 0.2
0 00 04 25 02 76 83 264 794 385 972 584 00 36 42 56 58
0 0 2 0 9 7 5 0 4
2, 1.0 3.0 9.2 15, 10. 38, 0,0 0,0 0.2 0.3 0.2 1.0 0.97 0.89 0.65 0.2
0 00 34 07 48 17 90 257 780 367 981 616 00 43 63 96 61
1 0 4 3 7 5 4 0 6
2, 1.0 3.0 9.3 15. 10. 40, 0,0 0,0 0.2 0.3 0.2 1.0 0,97 0.89 0,66 0.2
0 00 64 93 95 59 00 250 766 348 989 647 00 50 84 36 64
2 0 9 3 8 1 7 0 7
2, 1.0 3.0 9.5 16, 11. 41, 0,0 0,0 0.2 0,3 0.2 1.0 0.97 0.90 0.66 0.2
0 00 95 83 44 02 14 243 752 329 997 679 00 57 05 76 67
3 0 7 1 4 3 6 0 9

NOTA: Los valores de paso son .9, .9, 1.49 y 2.43 para los puntos de
puntuación 1, 2, 3 y 4, respectivamente.

1.00

0,90

0,80

0,70

0,60

P 0.50

0,40
0,30

0,20

0,10

0.00

Theta

Figura 10-2 Curvas características de respuesta para los puntos de puntuación 0–4 (según
los datos de la tabla 10-3, escala de Rasch )

1.00

0,90

0,80
0,70

0,60

P  2/3

P 0.50

0,40

0,30

0,20

0,10

0.00

Theta
Figura 10-3 Probabilidad de obtener un puntaje de puntaje dado o mejor en función de la
capacidad (según los datos de la tabla 10-3, escala de Rasch )

correctamente . Por lo tanto, comenzando con una probabilidad de 2/3 y resolviendo la


habilidad (  ) necesaria para responder un ítem correctamente, obtenemos lo siguiente:

  b j  0,693 / 1.7a j (Ecuación 10-24) (De nuevo, tenía la RP sido 0,67, en lugar de

2/3, el resultado final sería han sido   b j  0,708 / 1.7a j .)


Para los ítems de RC, la situación se vuelve algo más complicada. Mitzel y col. (2001)
utilizaron el modelo de crédito parcial de dos parámetros (2PPC), con su ecuación
fundamental que relaciona la probabilidad de obtener el puntaje k con la habilidad del
estudiante [ P jk (  )] y la dificultad del punto (paso) del puntaje (  ):

P jk (  )  exp (z jk ) /  exp (z ji ) (Ecuación 10-25)


donde m j es el número de puntuación de puntos o pasos para elemento j,

z jk  (k  1)  j    ji ; (Ecuación 10-26)

 j es el índice de discriminación del ítem j;

k es el número de este punto o paso de puntuación; y

 ji es el valor del paso para el elemento j en el paso i .

Por lo tanto, la probabilidad de obtener una puntuación en el paso k es una función


conjunta de la capacidad del examinado, la discriminación de ítems y
la probabilidad de obtener cualquiera de las otras puntuaciones k-
1 . En esta formulación, el valor para una puntuación de 0 (paso 0) se establece igual a cero;
que es,  j0  0 para todos

los artículos. Procedimientos similares a aquellos para establecer ING valores de  para cada
punto de la puntuación de cada uno CR artículo dentro de un Rasch trabajo marco pueden
ser establecidas para el 2PL modelo.
Como ilustramos en el contexto de Rasch , proporcionamos una parte de una hoja de
cálculo de Excel para un conjunto de cálculos, en este caso para un elemento hipotético de
CR de 3 puntos, cuando se usa un modelo 2PL. La hoja de cálculo aparece como la Tabla
10-4; Los valores de paso asociados con cada uno de los tres puntos de puntuación se
proporcionan en la parte inferior de la tabla. Y, también como antes, ilustramos
las curvas características de respuesta asociadas con cada opción para ese ítem (Figura 10-
4) y las curvas asociadas con la probabilidad de obtener una puntuación dada o mejor en el
ítem (Figura 10-5).

Instrucciones para marcar participantes

Como con otros métodos de establecimiento de normas, la selección y formación de los


participantes es un importante aspecto de la proceso. Y, al igual que con otros métodos,
cuando se utiliza el método Marcador, los participantes deben obtener una comprensión
clara de la tarea de juicio que deben realizar.

La tarea se presenta a los participantes en un pro-Señal de establecimiento de


normas cedimiento es sencillo. Al usar el OIB ensamblado con un ítem (o punto de puntaje)
en cada página, se les indica que indiquen el punto en el que juzgan que las posibilidades
límite o mínimas de examinado de responder correctamente al ítem (u obtener el punto de
puntaje) caen por debajo del probabilidad de respuesta especificada o regla de decisión. Por
ejemplo, si un 2/3 deci - sión se utiliza la regla, los participantes comienzan a trabajar a
través de la OIB ordinariamente juzgar que el examinado mínimamente cualificado tendría
mejor que una probabilidad de 2/3 de responder a artículos en el comienzo de la OIB (es
decir, , los elementos más fáciles) correctamente. Sin embargo, en algún momento de la
OIB, los participantes comenzarían a discernir que las posibilidades de que el examinado
mínimamente calificado responda correctamente se acerquen y comiencen a caer por
debajo de 2/3. Los participantes tienen instrucciones de indicar el punto en el OIB en el que
las posibilidades de que el examinado con calificación mínima responda correctamente
caigan por debajo de 2/3. Indican esta opinión colocando un marcador de página, a menudo
una nota autoadhesiva o un indicador similar, en la primera página de la OIB en la que la
probabilidad cae por debajo del criterio. Es decir, los participantes están indicando que los
elementos anteriores al marcador representan contenido que se espera que
el examinado mínimamente calificado domine en el RP o la regla de decisión especificada.

Los panelistas que establecen estándares generalmente trabajan en grupos pequeños,


evaluando el contenido de pequeños grupos de elementos tal como aparecen en el folleto de
prueba ordenado por dificultad. Discuten qué hace que un elemento o grupo de elementos
sea más difícil que los que lo precedieron y, en última instancia, colocan un marcador en un
punto donde creen que la dificultad de los elementos posteriores excede la capacidad de un
grupo identificado de estudiantes. En contextos de establecimiento de normas donde se
requiere más de un puntaje de corte (por ejemplo, Básico, Competente y Avanzado), los
participantes comenzarían con el primer elemento y se preguntarían si un estudiante (o
grupo de estudiantes) mínimamente calificado Un nivel de logro mayor (p. ej., apenas
básico) tendría la posibilidad especificada de responder el ítem correctamente. Luego se
harían la misma pregunta para cada elemento posterior hasta que llegaran a uno en el que
no pudieran responder afirmativamente. El ítem final que produce una respuesta afirmativa
marcaría el límite de ese nivel de desempeño, y los participantes colocarían un marcador en
ese punto (es decir, después del último ítem alcanzable). Después de hacer ese juicio para
la categoría Básica, los participantes continuarían examinando elementos más allá del
marcador que se acaba de colocar para identificar el puntaje de corte Competente , y así
sucesivamente para cada puntaje de corte requerido.
Tabla 10-4 Entradas y cálculos de hoja de cálculo seleccionados para un
artículo hipotético de 3 puntos CR , escala 2PL

N Den PAGS PAGS


u om
m
Thet e
a r
a
d
o
r

1 2
01 2 3 Su 0 0 1 2 3 ot om Me 3
0 ma ot ejor jor
al

 1 0,0 0.00 0,00 1.0 0. 0, 0. 0, 1.00 0,08 0.0 0,


4.00 87 2 0 89 91 08 00 00 0 2 02 00
8 0 2 0 0
 1 0,0 0.00 0,00 1.0 0. 0, 0. 0, 1.00 0,08 0.0 0,
3.99 87 2 0 89 91 08 00 00 0 2 02 00
8 0 2 0 0
 1 0,0 0.00 0,00 1.0 0. 0, 0. 0, 1.00 0,08 0.0 0,
3.98 88 2 0 90 91 08 00 00 0 3 02 00
7 1 2 0 0
 1 0,0 0.00 0,00 1.0 0. 0, 0. 0, 1.00 0,08 0.0 0,
3.97 88 2 0 91 91 08 00 00 0 3 02 00
7 1 2 0 0
 1 0,0 0.00 0,00 1.0 0. 0, 0. 0, 1.00 0,08 0.0 0,
3.96 89 2 0 91 91 08 00 00 0 4 02 00
6 2 2 0 0

0,1 1 1.3 0,54 0,07 2.9 0, 0, 0, 0, 1.00 0,66 0,2 0,


4 71 9 4 93 33 45 18 02 0 6 08 02
3 8 3 5 5
0,1 1 1.3 0,55 0,07 3.0 0, 0, 0, 0, 1.00 0.66 0.2 0,
5 80 6 5 11 33 45 18 02 0 8 10 02
2 8 5 5 5
0,1 1 1.3 0,55 0,07 3.0 0. 0, 0, 0, 1.00 0.67 0.2 0,
6 89 6 7 30 33 45 18 02 0 0 11 02
0 9 6 5 5
0,1 1 1.3 0,57 0,07 3.0 0. 0, 0, 0, 1.00 0,67 0.2 0,
7 99 1 8 48 32 45 18 02 0 2 13 02
8 9 7 6 6

2,1 1 5.2 8.01 4.11 18, 0, 0. 0. 0. 1.00 0.94 0.6 0.


5 39 3 5 367 05 28 43 22 0 6 60 22
4 5 6 4 4
2,1 1 5.2 8.12 4.19 18. 0, 0. 0. 0. 1.00 0.94 0,6 0.
6 74 0 8 593 05 28 43 22 0 6 63 22
4 4 7 6 6
2,1 1 5.3 8.22 4.28 18. 0, 0. 0. 0. 1.00 0.94 0.6 0.
7 10 9 3 822 05 28 43 22 0 7 65 22
3 2 7 8 8
2,1 1 5.3 8.34 4.37 19. 0, 0. 0. 0. 1.00 0.94 0,6 0.
8 45 0 0 055 05 28 43 22 0 8 67 22
2 1 8 9 9
2,1 1 5.3 8.45 4.45 19, 0, 0. 0. 0, 1.00 0.94 0,6 0,
9 81 2 8 291 05 27 43 23 0 8 69 23
2 9 8 1 1
2,2 1 5.4 8.56 4.54 19. 0, 0. 0. 0, 1.00 0.94 0,6 0,
0 17 5 8 531 05 27 43 23 0 9 71 23
1 7 9 3 3

4.3 1 23,3 159, 363, 547, 0. 0, 0. 0. 1.00 0,99 0.9 0.


9 42 047 925 313 00 04 29 66 0 8 56 66
2 3 1 5 5
4.4 1 23,4 161, 371, 556, 0. 0, 0. 0, 1.00 0,99 0.9 0,
0 98 183 280 961 00 04 28 66 0 8 56 66
2 2 9 7 7
4.4 1 23,6 163, 378. 566, 0. 0, 0. 0. 1.00 0,99 0.9 0.
1 55 348 784 787 00 04 28 66 0 8 57 66
2 2 8 8 8
4.4 1 23,8 165. 386, 576, 0. 0, 0. 0. 1.00 0,99 0.9 0.
2 13 541 440 795 00 04 28 67 0 8 57 67
2 1 7 0 0
4.4 1 23,9 167, 394, 586, 0. 0, 0. 0, 1.00 0,99 0.9 0,
3 73 764 251 988 00 04 28 67 0 8 57 67
2 1 6 2 2
4.4 1 24.1 170, 402, 597, 0. 0, 0. 0, 1.00 0,99 0.9 0,
4 33 017 219 370 00 04 28 67 0 8 58 67
2 0 5 3 3

NOTA: Los valores de paso son -0.33, 1.513 y 3.149 para los puntos de
puntuación 1, 2 y 3, respectivamente.

1.000

0.900

0.800

0.700
0.600

PAGS 0.500

0.400

0.300

0.200

0.100

0,000
Theta

Figura 10-4 Curvas características de respuesta para los puntos


de puntuación 0–3 (según los datos de la tabla 10-
4, escala 2PL )

1.000

0.900
0.800

0.700

0.600

P  2/3

P 0.500

0.400

0.300

0.200

0.100

0,000

Theta
Figura 10-5 Probabilidad de obtener un puntaje de puntaje dado o
mejor en función de la capacidad (según los datos de la
tabla 10-4, escala 2PL )

Cálculo de puntajes de corte de marcadores

Una vez que los participantes han expresado sus juicios al colocar uno (o
más) marcadores en la OIB, estos juicios se pueden traducir en puntuaciones
reducidas. En un enfoque tradicional de Marcadores, la traducción de
la colocación de marcadores para reducir
la puntuación es sencilla. Por ejemplo, supongamos que
un participante ha colocado su o su marcador en la página 39 de una de 50
páginas OIB distinguir entre Competente y Avanzado niveles de
rendimiento. Esto no corresponde a un puntaje de corte bruto de 39; más
bien, como hemos indicado anteriormente, esta marca indica el juicio del
participante que los examinados
clasificada como avanzada podría ser esperado a ser un
éxito (definido en términos de lo que sea la
decisión regla está siendo utilizado) en los artículos a través de la
página 39 de la OIB. Por supuesto, la persona
examinada podría también tener alguna probabilidad de éxito
en los artículos después de la página 39. Para obtener el corte
de puntuación, la capacidad nivel aso ado con RP67 (o cualquiera que sea la
decisión regla es en el lugar) que se corresponde con la página en la OIB en
en el que se colocó el marcador es la puntuación de corte,
expresada en unidades de escala de habilidad (es
decir, theta) . En este ejemplo, la teta aso ciados con RP67 para el elemento
que aparece en la página 39 de la OIB es el rec reco-
corte puntuación. Desde este punto, que es una sencilla materia a transform
ar el valor theta a la métrica puntaje bruto a través de la curva característica
de prueba o de otra métrica puntuación ajustada a escala usando el
apropiado prima a-puntuación escalada o la conversión-theta-a-puntuación
escalada ecuación .
En la ilustración en el anterior párrafo, el marcador cortado puntuación pa
ra un rendimiento
de nivel se basa únicamente en el marcador colocación de un único participa
nte. Obviamente, en cualquier aplicación de la Marca método de
establecimiento de normas, el procedimiento se llevará a cabo mediante un
gran panel de
Partici pantalones. En el caso habitual , las ubicaciones de marcadores de lo
s participantes variarán. En nuestra experiencia, el típico método para hacer
frente
a esta situación es encontrar, para cada participante, la theta (capacidad) de
nivel asociado con la página en la OIB inmediatamente anterior
a la una en la que el participante fue
marcador colocado en la misma forma como se acaba describió
. El resultado es una distribución de los valores theta , uno para cada particip
ante. El puntaje de corte general recomendado en unidades theta se obtiene
tomando la media de estos valores de theta y luego obteniendo el puntaje de
corte en unidades sin procesar (o puntaje escalado) usando uno
de los métodos descritos en el párrafo anterior. Observamos, sin embargo,
que la elección de la medida de tendencia central más utilizado, es
decir, la media-es quizás basa en gran medida en la tradición estadística y
que el uso de otra estadística tales como la mediana sería probable
que sea igualmente apropiado.
Finalmente, un punto de aclaración está en orden aquí con respecto
a la ubicación real del marcador y el valor de habilidad correspondiente que
se utiliza en los cálculos de puntaje de corte . A
medida que hemos descrito, cuando un marcador procedimiento se lleva a
cabo, los participantes son instruidos para colocar su marcador en la
última página de la que el participante puede responder afirmativamente
a la pregunta de establecimiento de normas “¿Sería un examinado apenas a
este nivel tienen la oportunidad 2/3 de responder correctamente este
elemento?”Sin embargo, en otras normativos sesiones, los
participantes están a veces les dice a colocar sus marcadores en la primera
página para la que la respuesta a esta pregunta es‘No’Si, por ejemplo, un
participante respondió“Sí ”Con respecto al elemento en la página 27 y“ No
” para el elemento que aparece en
la página 28 de la OIB, algunos facilitadores harían
que el participante coloque el marcador en la página 27, y algunos harán que
el participante coloque el marcador en la página 28. Estrictamente hablando
, si el
participante se realidad colocando un marcador en un libro, que podría ser c
olocado entre las páginas 27 y 28. en el ejemplo que hemos descrito aquí, la
correcta theta valor para su uso en el cálculo de la Marca de corte el
puntaje es el que se encuentra en la página 27 de la OIB, no el que se
encuentra en la página 28.
Nuestro punto aquí es que, independientemente de las instrucciones
dadas, debe quedar claro para todos los involucrados (facilitadores y
participantes) lo que se pretende cuando se coloca un marcador en una
ubicación determinada: el elemento más difícil para el que el participante
puede responder ándar cuestión de fijación de
affirma tivamente es el elemento cuyos valores están entrado en Bookmark
corte de puntuación calcu laciones, si los participantes identificar ese
elemento mediante la colocación de un marcador en él, después
de él, o en la siguiente página.

Una implementación del procedimiento de marcador


Gran parte de la terreno cubierto en anteriores apartados de este capítulo
se ha esbozado las matemáticas fundamentos de la Marca de
normalización procedimiento. En esta
parte del capítulo, que buscamos a ilustrar un típico Rasch aplicación
basada de la Marca método de la especie que se comúnmente se utiliza en el
contexto de K-12 pruebas de rendimiento de los estudiantes en los estándares
de referencia. En la ilustración se
presenta en los siguientes párrafos, que describimos muchos PRACTI cal aspe
ctos del método, incluida la formación, la presentación del folleto
ordenado, y rondas de votaciones.

Formación

La formación de un marcador de
normalización actividad típicamente implica famil iarizing participantes con la
s prestaciones de nivel de descripciones (PLD), la prueba en la que se
estándares de rendimiento se establecen, y el marcador de normas
procedimiento de ajuste. Un ejemplo de agenda para una sesión de tres días
usando el método de marca de Book- se muestra en la Figura 10-
6. Durante el primer día, los participantes reciben una visión general del
propósito de la sesión y sus objetivos. A esta descripción general le sigue la
administración y la calificación de las pruebas para que los participantes
comprendan claramente el contenido de la prueba. Luego, esta actividad es
seguida por la presentación y discusión de los PLD. Colocar los PLD después
de la administración y la calificación de la prueba ayuda a los participantes a
ver el contenido de los PLD en un contexto del mundo real. Una vez que los
participantes entienden y pueden articular los componentes clave de los P LD,
se les da la oportunidad de limitar la definición de cada nivel para aplicar a
aquellos que apenas se encuentran en cada nivel de rendimiento, es decir,
estudiantes en el umbral o recortar puntaje para ese nivel . En la mañana del
segundo día, los participantes reciben capacitación en los detalles del método
Bookmark, seguido de una breve ronda de práctica en la que colocan
marcadores para un puntaje de corte. En
www.sagepub.com/cizek/bookmarktraining se encuentra disponible un
conjunto completo de ejemplos de materiales de capacitación que se pueden
adaptar a diferentes contextos. Después de completar las actividades de
práctica, los participantes discuten sus experiencias y completan un formulario
de evaluación para evaluar su comprensión de la capacitación y su disposición
para comenzar las tareas de marcadores.

Figura 10-6 Ejemplo de agenda para el procedimiento de establecimiento de


estándares de marcadores

Presentación del folleto del artículo pedido


Como se describió anteriormente, el OIB para un procedimiento de
establecimiento de estándares Bookmark consiste en una serie de elementos
SR y CR en orden de dificultad, con el elemento más
fácil en la primera página y el elemento más difícil en la última página. Vale
la pena señalar en este punto que en el modelo Rasch no hace diferencia si
los artículos están ordenados por dificultad o por la habilidad requerida para
tener una probabilidad de 2/3 de respuesta correcta ; ya
sea método será resultar en el mismo orden. Si un 3PL o modelo 2PPC se
utiliza sin embargo, la dificultad del ítem requerido
y capacidad serán no necesariamente
se ordenan los elementos en la misma manera , porque
la necesaria capacidad es una función de tanto elemento de
dificultad y discriminación. Dados dos ítems de igual dificultad, el ítem con
el índice de discriminación más bajo requerirá la mayor capacidad de
producir una probabilidad de 2/3 de respuesta correcta. (Recuerde
que   b j  .693 / 1.7a j , de modo que a medida que j aumenta, el
lado
derecho de la ecuación disminuye). En estas circunstancias, un elemento má
s difícil podría preceder
a un elemento menos difícil en varias páginas en un OIB ordenado por theta,
en lugar de por dificultad. En nuestra experiencia, los participantes en un
marcador procedimiento, que son por lo
general mucho más sensibles al tema dificultad que a la
discriminación, puede ser confundido por una ordenación basada en theta va
l UE; por lo tanto se parece preferible a pedir folletos estrictamente por
el elemento dificultad.
La Figura 10-7 muestra una ampliación de una sola página en un OIB. La
información en la página incluye el número de página , el número
de artículo original y el punto de puntuación, y el nivel de logro
de Rasch requerido para tener una oportunidad de 2/3 de responder el
artículo correctamente. La llave (A) se coloca en la parte inferior de la
página
en una pequeña fuente para servir como una rápida verificación de la del
participante propia respuesta al tema, sin interferir con la estimación del
participante de la dificultad del tema. En la práctica, porque los elementos
asociados a un estímulo dado (por ejemplo, pasajes de lectura, los gráficos
para los conjuntos de elementos de ciencias o
geografía, etc.) son probablemente a variar ampliamente en dificultad y , por
tanto, ser esparcidos en la prueba de folleto, todos los comunes de
estímulo materiales se colocan en un folleto complementario El folleto
complementario se distribuye a los participantes junto con el folleto
de prueba ordenado por dificultad .
La página OIB que se muestra en la Figura 10-7 contiene toda la
información que un participante necesitaría para emitir un juicio sobre el
artículo. Toda la infor mación está impreso en la parte
superior de la página por lo que se va a ser fácilmente accesible a los
participantes. Como se puede ver en la figura, este elemento aparece en la
página 1 de la OIB (como se indica con el número 1 en el cuadro en la
esquina superior derecha de la página). Este número de página está en
negrita y tiene un tamaño más grande que lo hace claramente distinguible de
otros números en la página; Esto es importante porque los participantes usan
el número de página como su indicador para la colocación de un
marcador. La figura también muestra que este elemento apareció como el
Elemento 13 en el formulario de prueba real, como lo indican los 13
impresos en la esquina superior izquierda de la página. También se imprime
en la página el nivel de logro (es decir, habilidad o theta) requerido para que
un examinado tenga una probabilidad de 2/3 de responder correctamente
este ítem suponiendo (como es cierto en la página de muestra que se
muestra) que el ítem es un formato SR articulo. En la página de muestra que
se muestra en la figura, la habilidad requerida (expresada en logits)
es 1.363. Si el ítem en esta página hubiera sido un ítem de formato CR, el
nivel de habilidad expresado en logits sería el valor asociado con una
probabilidad de 2/3 de obtener ese punto en particular o mayor. Estos
valores se obtienen como se escribió anteriormente en este capítulo.

Figura 10-7 Ejemplo Página De artículo pedido de folletos

Primera ronda de un procedimiento de marcador

Después
de una introducción a la procedimiento, cada participante recibe un OIB,
un estímulo folleto, y un conjunto de marcadores. Como se
mencionó anteriormente, la OIB tiene un elemento por
cada página, comenzando con el más sencillo elemento en la prueba
de folleto; cada página contiene información como la que se muestra en
la Figura 10-7. Cada elemento CR se representa una vez para cada
uno de sus puntos de puntuación , como
se señaló anteriormente. Cada página contiene el elemento CR y uno o
más ejemplos de respuestas que son
Exem Plars de la determinada puntuación de punto. Debido a
que no son varias diferentes maneras de ganar cada punto de la puntuación,
a menudo es una buena idea para seleccionar ejemplos de respuestas que
cubren un amplio abanico de posibilidades en los distintos CR artículos.
Para las pruebas que tienen estímulos comunes (p. Ej., Leer pasajes,
mapas, gráficos), se prepara un folleto de estímulo separado y
se distribuye a los participantes. En una OIB, los elementos para un
escenario, mapa, caso, gráfico u otro estímulo dado se encuentran dispersos
en todo el folleto. Para simplificar la tarea participantes se enfrentan en la
adecuación
de artículos en la OIB con sus asociados estímulos, que es útil para cre comi
ó un código para cada estímulo y luego repetir ese código en el comienzo de
la partida correspondiente en el OIB. El cuadro en la esquina inferior
derecha de la Figura 10-
7 proporciona una correspondencia entre ese elemento y su estímulo
asociado (en este caso, Pasaje 3).
Cada participante también recibe un impreso forma en la que al entrar
en su o sus
marcadores (página números). Los formularios se imprimirán en un lado de
una pieza de la tarjeta de valores. Cada forma es semejante a la uno se
muestra en la Figura 10-8. En las rondas 1 y 2,
los participantes ingresan el número de página para cada marcador. En la
Ronda 3, los participantes van a estar familiarizados con la relación entre la
página número y el corte de puntuación. En esta etapa,
los participantes pueden ingresar números de página y puntajes de corte
asociados, así como los datos de impacto. El propósito de pedir a cada
partici pantalón para introducir también los datos de impacto es ayudar a
garantizar que cada participante es plenamente consciente de las
consecuencias de que sus recomendaciones
se tienen en términos de los porcentajes de los
examinados que se pueden clasificar en cada
una de las prestaciones categorías si los puntajes de corte
de los participantes se aplicaron a los resultados reales de la prueba .
Durante la Ronda 1, los participantes generalmente trabajan en pequeños
grupos de tres a cinco personas. Mientras discuten el contenido del elemento
entre ellos, cada participante completa su propio formulario de grabación de
Marcadores como el que se muestra en la Figura 10-8. A medida que
completan la Ronda 1, los participantes revisan sus formularios para
asegurarse de que estén completos, devuelven todos los materiales al
facilitador y son despedidos por el día.

Obtención de puntajes preliminares de corte de marcadores

Al final de la Ronda 1 (y las siguientes rondas), el personal que establece


los estándares recoge las tarjetas de marcadores de los participantes e
ingresa los valores de las tarjetas en una hoja de cálculo similar a la que se
muestra en la Tabla 10-5. Después de verificar la exactitud de los
resultados, los facilitadores de la reunión devuelven las tarjetas a
los participantes, junto con los resultados. La información de muestra que se
muestra en la Tabla 10-5 permite a los participantes ver dónde caen sus
marcadores en relación con los de otros participantes. También les da una
idea de dónde se encuentra el promedio del grupo, así como qué tan lejos
están sus propios marcadores del promedio del grupo. Tabla 10-
5 proporciona un resumen de los marcadores colocaciones, en adición a
los resultantes del corte puntuaciones. También se
muestra son la media corta puntuación (junto con su estándar
de desviación), los mínimos y máximos recomendados de
corte puntuaciones para cada nivel de rendimiento y puntajes de corte de
una desviación estándar por encima y una desviación estándar por debajo de
las recomendadas media de las puntuaciones de
corte. Individuales cortadas anota en primas de
puntuación unidades están no mostrados, pero significa, medianas, mínimo ,
y las puntuaciones máximas de corte en unidades de puntuación primas
son proporcionado.
Básico Competente Avanzado

Número de
páginas

Básico Competente Avanzado

Número de
páginas

Figura 10-8 Ejemplo de formulario de registro de participante de


marcador
Tabla 10-5 Ejemplo de salida desde la
Ronda 1 del marcador Procedimiento establecimiento de
normas

Básico Competente Avanzado

Número de Página Theta @ Página Theta @ Página Theta @


identificación en OI Cut en OIB Cut en OI Cut
del participante B B

1 55  0.334 12 0.286 46 1.627


2 8 0,082 22 0.600 46 1.627
3 8 0,082 22 0.600 47 1.650
44 66  0.243 22 0.600 46 1.627
55 10 0.270 18 años 0,551 38 1.333
66 66  0.243 dieciséis 0,493 39 1.340
77 99 0,193 21 0.579 40 1.489
8 66  0.243 dieciséis 0,493 39 1.340
99 77  0.176 dieciséis 0,493 40 1.489
10 8 0,082 dieciséis 0,493 40 1.489
11 77  0.176 dieciséis 0,493 43 1.586
12 8 0,082 dieciséis 0,493 41 1.510
13 99 0,193 32 1.046 42 1.580
14 99 0,193 23 0.616 46 1.627
15 99 0,193 26 0,891 39 1.340
dieciséis 99 0,193 14 0.440 42 1.580
17 13 0.420 19 0,558 38 1.333
18 años 8 0,082 13 0.420 22 0.600
19 10 0.270 17 0,540 39 1.340
20 11 0.272 17 0,540 39 1.340

Resumen de estadísticas en métrica Theta (Habilidad)

Corte medio 0,060 0.561 1.442


Corte medio 0,082 0,540 1.489
Dakota del Sur 0.217 0,161 0,233
Mínimo  0.334 0.286 0.600
Máximo 0.420 1.046 1.650
Media  1SD  0.158 0,401 1.209
Media  1SD 0.277 0,722 1,667

Resumen de estadísticas en la métrica de puntaje bruto

Corte medio 22.04 28,73 39,87


Corte medio 22,31 28,44 40,32
Mínimo 18.00 25.00 30.00
Máximo 27.00 36,00 42,00
Media  1SD 19,46 26,51 37,34
Media  1SD 24,83 30,99 42,00

La traducción de puntajes de corte en la métrica theta a un puntaje de corte en


unidades de puntaje bruto es un proceso relativamente sencillo. Los programas
como WINSTEPS u otros programas basados en IRT (por ejemplo, PARDUX,
PARSCALE, etc.) producen una tabla de conversión que muestra los puntajes
brutos y los valores theta
asociados. Usando los valores medios calculados para thetas en los tres niveles
de rendimiento ilustrados en la Tabla 10-5, cada uno de los tres thetas se ubica
en la tabla de conversión y se obtiene (o interpola) la puntuación bruta más
cercana. Debido a que casi nunca se
observará una correspondencia precisa entre el corte theta exacto y el corte bruto
, la junta o entidad responsable de los estándares de desempeño, antes de
establecer el estándar, deberá tomar una decisión de política con respecto a si
tomar el puntaje bruto más cercano , la puntuación bruta con un valor theta
asociado justo debajo del theta medio calculado, la puntuación bruta con el valor
theta asociado justo por encima del theta medio calculado o algún otro
valor. Como hemos instado anteriormente, tales decisiones también deben
documentarse, junto con la justificación detrás de ellas.

Una advertencia y precaución con respecto a las puntuaciones de corte


de marcadores

Nos desviamos por un momento


de nuestra descripción de esta implementación específica de
Bookmark para ofrecer una aclaración y precaución sobre cómo se obtien
en los puntajes de corte de Bookmark . De
hecho, nos hemos visto una gran
variedad de aplicaciones de procedimiento Favorito en la que los
mecanismos alternativos para el cálculo de un han empleado puntuación
de corte. Por ejemplo, en algunas aplicaciones de la marca de libro-
normativo procedimiento, las cortadas las
puntuaciones han sido obtenidos por simplemente
tomando la media recomendada página número en la OIB y la traducción
de ese número en una prima puntuación. Por ejemplo, si el número de la
página medias fueron de 29, 29 podrían ser tomados como el corte
de puntuación. La razón para hacer lo que sería ser que, en promedio, los
participantes pensado la persona examinada mínimamente
cualificado en ese nivel sería tener un 2/3 oportunidad de responder
a los primeros 29 artículos correctamente. Tal un procedimiento es poco
aconsejable, sin embargo, y más cerca el
examen de la lógica detrás del procedimiento adecuado parece justificada.
La lógica de establecer un punto de corte en la puntuación bruta
asociada con la media teta identificados por los participantes es la
siguiente: Los participantes colocan sus marcas
escriturales en el último elemento en la OIB por el
que se crea una mínimamente cali cado examinando tiene un 2/3 oportu
nidad de responder correctamente Los examinados mínimamente calific
ados aún tendrán alguna posibilidad de responder correctamente los
siguientes ítems, por supuesto; hasta el final de la OIB, mínimamente
examinados calificados (de hecho, casi todos los examinados) va
a tener algunos (muy pequeña) la oportunidad de responder
correctamente a cada pregunta. Además, estos examinados tendrán
una probabilidad mayor de 2/3 de responder correctamente
los elementos que aparecen antes de la ubicación de sus marcadores.

Los modelos IRT se basan en la noción


de que cada examinado tiene una probabilidad calculable de responder
a cada ítem correctamente (u obtener cualquier punto de puntaje dado
en un ítem CR). El puntaje bruto estimado para un theta dado es la
suma de estas probabilidades y valores esperados. Así, por ejemplo, si
el valor medio theta para Competente, basado en las estimaciones de los
20 participantes representados en la Tabla 10-5, es .561, entonces la
puntuación de corte basada en Marcador para Competente es 28.73, que
es el valor interpolado de la salida WINSTEPS
que muestra los valores theta asociados con puntajes brutos de 28 y 29.
Si simplemente tomáramos el número de página promedio como
nuestro corte, obtendríamos un puntaje de corte
de 18.7. Si este valor se utiliza como el corte
de puntuación (redondeado a ya sea 18 o 19; para los
propósitos de este punto, que no importa cuál), no habría ser aprox mad
amente un 10-crudo-puntuación de punto
de diferencia entre esta valor y la correcta valor de 28.73, claramente
una diferencia prácticamente significativa .

Comentarios de la primera ronda a los participantes

Un ejemplo de un tipo de normativa información proporcionada a los


participantes en un procedimiento de establecimiento de normas
Favorito se muestra en la Figura 10-9. En este
punto, solo se muestran los números
de página marcados por los participantes . De esta manera,
los participantes obtienen una vista gráfica de cómo
se comparan sus marcadores con los marcadores de los otros
participantes. La figura ayuda a ilustrar donde no están vacíos,
que es, rangos de páginas en el que hay participante
eligió para colocar un marcador para cualquier corte
de puntuación. En posteriores rondas, las páginas rangos serán Typ came
nte no sea el foco de atención; más bien, la discusión y el examen se
centrarán en el rango de páginas en el que la
Ronda 1 juicios han indicado que las eventuales corte recomendaciones
de puntuación es probable que se encuentren.
Curiosamente, la Figura 10-
9 también muestra donde no son superposiciones en juicios
individuales. Por ejemplo, un participante colocó su marcador en
la página 37 para el nivel Avanzado , mientras que otro participante
colocó su marcador para Competente en la página
39. En efecto, un participante establecería el límite para Competente más
alto que al menos un participante establecería el límite para Avanzado. Las
visualizaciones tales como Figura 10-
9 son excelentes mecanismos para pro Moting las discusiones
importantes que caracterizar Rondas 2 y 3.
En adición a la normativa de la información, el impacto de
información está también proporciona generalmente a los
participantes en cualquier establecimiento de
normas procedimiento. La coyuntura en la
que tal información se proporciona varía, sin
embargo. En este caso, nos ilus trar la provisión de información de
impacto al final de la ronda 1,
aunque puede ser introducido en el extremo de Rondas 1, 2, o 3. Se nota
, sin embargo, que, en nuestra experiencia de la tarde que el impacto de
información se presentó a partici los
pantalones, el menos un impacto en los
participantes juicios que aparece a tener. El propósito de los datos de
impacto es permitir a los participantes ver cuántos (o qué porcentaje de)
examinados se clasificarían en cada nivel de desempeño si se
implementaran los puntajes de corte promedio de esa ronda. Un
ejemplo de información de impacto se presenta más adelante en este
capítulo (ver Tabla 10-6).
9 Matemáticas Ronda 1

77

66

55

44

1
00
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
36 38 40 42 44 46 48 50

Página en el folleto del artículo


pedido

Figura 10-9 Muestra de muestra de la primera ronda de comentarios


de ubicación de marcadores

Segunda ronda de un procedimiento de marcador

Siguiendo el cronograma que se muestra anteriormente en la Figura 10-


6, el tercer día de la sesión de establecimiento de normas comienza con
los participantes que reciben sus OIB y otros materiales de la Ronda 1
más los datos de resumen del marcador y la información de impacto de la
Ronda 1. La primera actividad es una discusión , dirigido por facilitadores
de reuniones y centrado en las calificaciones de la Ronda 1 y los datos de
impacto. Esta discusión generalmente se enfoca en
el rango de puntajes de corte , áreas de desacuerdo
particular y preocupaciones sobre
la ubicación de dificultad de los elementos individuales . Como
parte de esta discusión, que es a veces útil para
los participantes que abordan explícitamente las diferencias entre su
dificultad percibida de un artículo en particular
y la colocación de que elemento con respecto a los demás en la OIB.

Una vez que los participantes han discutido los resultados de la


Ronda 1 como un total de grupo,
que continúan su trabajo en pequeños grupos de tres a cinco miembros par
a comenzar la Ronda 2. La reasignación de participante s a grupos más
pequeños pueden corrieron dom, o que pueden ser hechas a
propósito en orden a llevar divergentes puntos de vista juntos en la misma
mesa. En cualquier caso, la reasignación entre las rondas maximiza las
oportunidades para los participantes a expresar su propia y oyen others'
puntos de vista. La tarea de los participantes para la Ronda 2
es esencialmente idéntica a la de la Ronda 1, que consiste en (re)
considerar las ubicaciones de los marcadores y el contenido de
los elementos capturados por los niveles de desempeño y la discusión de
esos juicios con otros miembros de grupos pequeños. La principal
diferencia entre las Rondas 1 y 2 es la cantidad de información disponible
para cada participante. Al final de la segunda ronda de votaciones, los
facilitadores recogen todos los materiales y descartan los participantes
para el almuerzo, durante el cual los facilitadores de nuevo analizar
las ubicaciones de marcador y preparar informes similares a los mostrados
en la Tabla 10 -5 y la Figura 10-9. Esta información se proporciona a los
participantes al comienzo de la Ronda 3.

Tercera ronda de un procedimiento de marcador

Para comenzar la Ronda 3 de un procedimiento de establecimiento de


estándares de Marcadores , los participantes nuevamente usan sus OIB y
se les proporciona todos los
demás materiales de la Ronda 2 más un resumen de los juicios de la Rond
a 2 . En nuestra experiencia, es en este punto que una versión especial de
la Tabla 10-5 parece ser bastante útil para los participantes. Un ejemplo de
esta versión se muestra en la Tabla 10-6. La característica distintiva de la
Tabla 10-6 es que incluye los equivalentes de puntaje bruto
real asociados con los valores theta que son los puntajes de
corte recomendados . Esta característica ayuda a aclarar a los participantes
la relación entre sus ubicaciones de marcadores, los valores
theta asociados con esas ubicaciones y el impacto que una ubicación de
marcador (o cambiar una ubicación de marcador) tendrá tanto en la
puntuación de corte bruto como en los porcentajes de examinados
clasificados en o por encima de un nivel de rendimiento dado .

Ronda 3 comienza con facilitadores que


lleva una discusión de los impactos de datos y otros temas de interés de la
Ronda 2. Al final de esta discusión, los participantes se les
pidió que evaluar todos
los de sus anteriores clasificaciones y toda infor mación en la
mano y que simplemente introducir tres marcadores y los puntajes de
corte asociados en su forma de registro (ver Figura 10-
8). En esta etapa, los participantes están de
hecho pidió a introducir varias piezas de datos en sus grabación formas. L
a revisión de la Figura 10-8 revela que, además del número de página en
el que han colocado marcadores para cada nivel de desempeño , se les
pide a los participantes que ingresen el puntaje de corte bruto asociado
con el número de página y el porcentaje correspondiente de examinados
que se clasificarían en o por encima de ese nivel. El requisito de que los
participantes entran todos tres de estos valores para cada corte
de puntuación es un intento de verificar los participantes la comprensión
de la tarea final, para poner de relieve el impacto de los juicios, y para
proporcionar
una verificación de la exactitud de los participantes intenciones. La tarea f
inal de r rund 3 ocurre cuando los participantes completan los formularios
de evaluación (ver Capítulo 3) y es despedida. Luego, los facilitadores
verifican la precisión de cada marcador
completado, cuentan estas calificaciones finales y calculan el puntaje
de corte promedio recomendado para cada nivel de logro .
Tabla 10-6 Comentarios de la ronda 3 para el procedimiento de establecimiento
de estándares de marcadores

N. ° de Artículo origin Artículo Theta @ Puntaj %


página en al No. IRT RP e de En
OIB / dificult corte o
ad sin por
de paso proc enci
esar ma

1 66  2.3  1.612 8 99,61


05
2 2  1.9  1.293 10 99,11
86
3 3  1.9  1.257 10 99,11
50
44 12  1.3  0.611 15 95,66
04
55 14  1.0  0.334 18 92,13
27 años
66 11  0.9  0.243 19 90,62
36
77 1  0.8  0.176 0. 20 88,8
8 28 69 082 23 6
 0.6 82,3
11 4
99 24  0.5 0,193 24 79,66
00
10 15-1 0.480 0.270 25 76,4
11 18 años  0.4 0.272 25 7
21 76,4
7
12 17  0.4 0.286 25 76,47
07
13 26-1 0,790 0.420 27 68,80
14 5-1 0.650 0.440 27 68,80
15 8-1 0.350 0.440 27 68,8
dieci 77  0.2 0,493 28 0
séis 00 64,7
7
17 29-1 0.240 0,540 29 60,6
18 27  0.1 0,551 29 9
años 42 60,6
9
19 34  0.1 0,558 29 60,69
35
20 20  0.1 0,569 29 60,69
24
21 13  0.1 0.579 29 60,69
14
22 37-1 1.250 0.600 30 56,4
23 21  0.0 0.616 30 8
77 56,4
8
24 15-2 0,750 0.740 32 47,81
25 26-2 0.320 0.810 33 43,56
26 dieciséis 0,198 0,891 34 39,34
27 33-1 0.620 0.900 34 39,34
28 37-2 0,090 0.910 34 39,34
29 30 0.252 0.945 35 35,18
30 36 0.295 0.988 35 35,18
31 38 0,305 0,998 35 35,18
32 44 0.353 1.046 36 31,15
33 15-3 0.320 1.090 36 31,15
34 35 0.464 1.157 37 27,20
35 99 0,498 1.191 38 23,39
36 5-2 0,050 1.200 38 23,39
37 26-3 1.650 1.290 39 19,64
38 10 0.640 1.333 39 19,64
39 32 0.647 1.340 39 19,64
40 19 0,796 1.489 41 12,45
41 37-3 1.530 1.510 41 12,45
42 8-2 0.630 1.580 42 9.61
43 22 0,883 1.586 42 9.61
44 31 0,896 1.589 42 9.6
45 26-4  0.0 1.590 42 1
10 9.6
1
46 23 0.934 1.627 42 9.61
47 25 0.957 1.650 42 9.61
48 15-4 1.130 2.040 45 3.73
49 37-4 0.860 2.080 45 3.73
50 29-2 1.280 2.120 46 2,69
51 33-2 1.560 2.410 47 1,71
Procedimientos alternativos y limitaciones

Teniendo en
cuenta el tiempo que ha transcurrido desde su introducción, la limitada canti
dad de publicada la
investigación evidencia sobre la Marca procedimiento es un
poco sur premiación (ver Karantonis y Sireci , 2006). Por otra parte,
teniendo en cuenta el número de veces
que el marcador procedimiento ha sido utilizado, que es no es
sorprendente que, para la mayor parte, muchas de las preocupaciones
iniciales acerca del método se han abordado a través de
procedimiento cambios basados en estas experiencias. Sin embargo ,
debe tenerse en cuenta un aspecto fundamental del procedimiento cada
vez que se emplea: el puntaje de
corte está absolutamente vinculado por la dificultad relativa de la prueba. Q
ue es este Limita ción que la investigación futura en el método de marcador
debe abordar.

Para ver el impacto de esta limitación, podemos considerar la alineación


relativa de la dificultad de una prueba y la capacidad de la población de
examinadores que tomarán la prueba. Si la prueba es fácil, en relación con
la población
examinando, se le sea imposible a establecer un corte puntuación por
debajo de un cierto punto, no importa lo que cualquiera de los
participantes puede desear. Por ejemplo, supongamos que cada
participante colocó un marcador para Basic en la página 1 de un OIB. En
esta prueba (relativamente) fácil, es muy probable que el nivel de
habilidad asociado con un RP67 produzca un puntaje de corte de dos (o
más) en la escala de puntaje bruto. En una
reciente aplicación, nos encontramos que la teta de
nivel de página 1 en un determinado OIB arrojó un puntaje bruto de
10! Del mismo modo, un marcador colocado incluso en la última página
de un OIB no necesariamente generará un puntaje de corte bruto del 100%
correcto. Nos hemos incluso realizado marcador procedimientos en los
que algunos hubieran preferido a los participantes a ir más allá de la
última página del folleto para su último marcador, alegando que la mayor
parte difícil tema en el folleto era lo
suficientemente difícil de distinguir de la más
alta categoría de rendimiento.
Por supuesto, las pruebas que son demasiado fáciles o demasiado di fficult
para la población de los
examinados presenta problemas que son no único a la Marca de
normas método de ajuste, sino que plantean problemas para otros métodos
también. De hecho, esta limitación puede ser realmente un crédito para el
método, ya que saca a la luz la limitación. Para abordar la limitación, se
deben establecer procedimientos cuidadosos de escritura de artículos y
construcción de prueba; métodos de establecimiento de normas no pueden
compensar las debilidades en la cobertura de contenido, características de
funcionamiento de los elementos, y así sucesivamente.

Una segunda dificultad que surge en las aplicaciones de marcadores tiene


que ver con brechas inusualmente grandes en la dificultad entre
los elementos. Cuando el OIB comprende elementos seleccionados de un
grupo de elementos profundos (a diferencia de un formulario de prueba
específico), este problema generalmente se puede evitar. Sin embargo,
cuando el folleto del artículo pedido se crea directamente a partir de la
prueba operativa, es probable que la dispersión de las dificultades del
artículo sea desigual. Este problema puede causar dificultades a los
participantes en el proceso, particularmente cuando es evidente
que uno de los puntajes
de corte cae en una de las brechas. Por ejemplo, dejar que nos asumir
que cinco contiguos artículos en la OIB tienen los siguientes RP67 theta v
alores: artículo 21 (1.41), artículo 22 (1.53), artículo 23 (1.62), artículo 24
(2.04), y el artículo 25 (2.17) . Los participantes examinaron esta serie de
artículos que pueden juzgar artículo 23
es también dentro del alcance de un apenas Competente examinando, pero
que de artículo 24 es mucho más allá del alcance de tales una persona
examinada . En tal un caso, los participantes pueden no desear colocar su
marcador en cada tema, prefiriendo en su lugar, si fuera posible,
para colocar un marcador en alguna parte entre los artículos 23 y 24. Su
situación es que conformarse con la colocación de un marcador en el
punto 23, el cual puede producir una puntuación de corte que es más bajo
que el panel en su conjunto puede soportar, o colocando el marcador sobre
el punto 24, lo que podría resultar en un corte puntuación más alta que los
participantes son cómodas recomendar.

Por estas razones, se recomienda que se preste atención especial al


desarrollo de la operativa de prueba si se va a ser utilizado para
la Marca establecimiento de normas y que las normativas
de cuestiones se cuidadosamente considerado temprano en el proceso de
prueba y desarrollo. Puede ser posible prevenir ambos problemas ( falta de
coincidencia de dificultad / habilidad y brechas de dificultad
del elemento ) a través del diseño de prueba dirigido . Reconocemos, por
supuesto, que los valores finales para la capacidad del examinado y las
características de los ítems solo pueden conocerse después de la
administración operativa, por lo que es especialmente crítico que
los profesionales sean conscientes de este problema potencial y planeen
evitar sus consecuencias por adelantado.

Sin embargo, se pueden concebir procedimientos alternativos para abordar


estas limitaciones potenciales. Con respecto a la dificultad del ítem /
desajuste de la habilidad del examinado que conduce a ubicaciones de
puntaje de corte no anticipadas, un enfoque simple esencialmente ignora
la relación b- theta. Si se utiliza esta alternativa, el número de página en el
OIB se toma directamente como la puntuación de corte sin
procesar; que es, si un participante pone un marcador en la
página 10, la recomendada punto de corte es de 10 puntos. Precisamente
esta estrategia se implementó en un estudio realizado por Buckendahl ,
Smith, Impara y Plake (2002); los autores informaron que funcionó bien
en el contexto de establecer estándares para una evaluación de
matemáticas de séptimo grado en un distrito escolar del medio oeste .

Anteriormente en este capítulo describimos este enfoque como una


implementación incorrecta del método Bookmark. Sin embargo, esta
alternativa (¿un método de “Marcador modificado”?) Proporciona una
estrategia simple y una alternativa razonable siempre que toda la
capacitación relacionada, los materiales, la retroalimentación, etc., se
realineen de manera similar. El estudio citado en
el párrafo anterior proporciona solo un apoyo limitado para esta alternativ
a; sin embargo, se requeriría más investigación antes de recomendar su
uso .

Otra alternativa implica el uso de estadísticas de elementos clásicos (es


decir, valores p ) en lugar de valores IRT para ordenar el OIB. Luego,
para cada página de la OIB, una puntuación de la escala puede ser
asignado a cada página de la OIB tal que, por ejem- plo , página 10
tendría una puntuación de la escala equivalente a 10 puntos de calificación
bruta. Aunque esta estrategia parece a remediar la dificultad-
capacidad desajuste, sino que
también plantea nuevas preguntas. En esencia, este enfoque se
restablece la escala puntajes en formas que pueden tener consecuencias
imprevistas, y antes de recomendar
esta estrategia nos esperan los resultados de la investigación que va
a descubrir los previstos y las consecuencias no deseadas de esta estrategia
de ordenación. Otra alternativa, y una investigación que se necesita
abordar, también implica el pedido de la OIB. En todas
las aplicaciones de la Marca método que somos conscientes de, los elemen
tos de la OIB se compilan en el aumento de la dificultad orden. La
secuenciación de los elementos en el opuesta fin (es decir, de más
difícil a fácil) parece como un plausibles alter- nativa; La evidencia de
investigación de que cualquiera de los pedidos produce puntajes de corte
similares agregaría soporte de validez para el método.

Con respecto a la partida dificultad brecha problema, como hemos indicad


o anteriormente, una especialmente construida OIB creado a partir
de un banco con una gran cantidad de artículos en cada dificultad de
nivel es técnicamente preferible. Sin
embargo, como que también Ment ioned, puesta a tierra estándar
de configuración en un real funcionamiento de
prueba es también altamente deseable. Entre estas opciones, no puede ser
un punto medio. En caso de que la oper acional prueba
de rendimiento lagunas que son propensos a interferir con el
establecimiento de normas a través
de la Marca procedimiento, que podría parecer prudente para identificar la
ubicación de los huecos e inserte un pequeño número de elementos del
banco para complementar el funcionamiento prueba
de forma y mejorar la brechas. La clave consideración aquí
para ser pesado es la solución de compromiso entre la medición de
precisión y la fidelidad a la operativa formulario. En
particular, si la OIB sólo se añadió (un pequeño número de) los
elementos a y tuvo ningún artículo en
su distancia desde el funcionamiento manual, la objeción
a esta práctica podría ser fácilmente superado. Al igual
que con muchos de los otros puntos de decisión que hemos ilustrado, este
es un problema de política que debería abordarse al inicio de la
planificación del establecimiento de normas .

Das könnte Ihnen auch gefallen