Sie sind auf Seite 1von 10

Psicologia: Reflexão e Crítica, 2001, 14(3), pp.

643-652 643

Descrição dos Principais Métodos


Descrição dos Principais Métodos para
Detectar o Funcionamento Diferencial dos Itens (DIF)
Wagner Bandeira Andriola 1
Universidade Federal do Ceará

Resumo
O artigo descreve os principais métodos utilizados, atualmente, na detecção do funcionamento diferencial dos itens (DIF),
entre os quais o de Comparação da Área entre as CCI’s, Comparação das Probabilidades, Comparação dos Parâmetros dos Itens,
Qui-quadrado de Lord, Qui-quadrado de Scheuneman, Qui-quadrado de Pearson ou Total, Mantel-Haenszel, Regressão
Logística, Método Padronizado e, finalmente, o Logístico Interativo. Apresentamos as bases matemáticas desses métodos, suas
principais vantagens e limitações. Destacamos que a presença do DIF em instrumentos de medida, sejam psicológicos ou
pedagógicos, é um problema para o suposto da padronização ou uniformização das condições de aplicação dos testes e que,
ademais, acarreta injustiça e falta de eqüidade ao processo avaliativo.
Palavras-chave: Funcionamento diferencial dos itens (DIF); teoria de resposta ao item (TRI); avaliação psicológica.

Main Methods for Detection of the Differential Item Functioning (DIF): A Description

Abstract
This paper aimed at describing the main methods used today in the detection of the differential functioning of items (DIF). We
describe the methods of the Area between the ICC’s, Comparison of the Probabilities, Comparison of the Items Parameters,
Lord’s Chi-square, Scheuneman’s Chi-square, Pearson’s or Total Chi-square, Mantel-Haenszel Method, Logistic Regression,
Standardized Method and, finally, the Logistic Interactive Method. We present the mathematical basis, main advantages and
limitations of these methods. Finally, we emphasize the presence of the DIF in psychological and educational tests as a problem
for the assumption of standardized conditions and also as a cause of injustice and absence of equity for the assessment process.
Keywords: Differential item functioning (DIF); item response theory (IRT); psychological assessment.

A necessidade e relevância da padronização ou Para compreendermos essa última afirmação,


uniformização das condições de aplicação dos deveremos conhecer o conceito de DIF. Podemos dizer
instrumentos de medida é um dos supostos mais que, no âmbito da TRI, o item não tem DIF quando a
importantes da avaliação, seja no âmbito psicológico ou sua curva característica (CCI) é idêntica para os grupos
educativo (Anastasi, 1988; Pasquali, 2000). Para tanto, comparados num mesmo nível ou magnitude da variável
psicólogos e pedagogos tratam de uniformizar as tarefas latente medida (Lord, 1980; Melenbergh, 1989). Em
ou itens, as instruções, o tempo destinado à resolução linguagem matemática poderíamos dizer que o item não
das tarefas contidas nos instrumentos, a maneira de corrigir tem DIF com respeito a variável G (grupo), dado Z (nível de q),
as respostas dos respondentes, as condições de se, e somente se, F (X I g,z) = F (X I z).
luminosidade, som e a própria atividade de aplicação Onde:
dos instrumentos de medida, etc. (Martínez Arias, 1997). — X é a pontuação no item;
Com o recente surgimento do paradigma psicométrico — g é o valor obtido em X segundo a variável G;
denominado Teoria da Resposta ao Item (TRI), novas áreas de — z é o valor obtido em X segundo a variável Z.
investigação têm proliferado (Andriola, 1998; Hambleton, Nesse caso, a associação entre ambas variáveis (g e z)
1989a, 1990). Como opina Hambleton (1997), uma delas pode favorecer ou prejudicar o rendimento de um grupo
tem seu foco dirigido ao estudo do Funcionamento Diferencial sobre o outro. Portanto, é necessário reconhecer que a
dos Itens (DIF)2 , que está intimamente ligado ao suposto presença de DIF ocasiona sérios problemas ao processo
da padronização das condições de aplicação dos de avaliação, já que pode privilegiar um determinado
grupo em detrimento de outro (Douglas, Roussos &
instrumentos de medida. Devemos ter claro que a
Stout, 1996).
presença de DIF num teste é um fator que torna o
No âmbito da TRI, um item terá DIF se os sujeitos
processo avaliativo injusto.
que têm o mesmo grau de aptidão ou habilidade (θ) e
compõem distintos grupos demográficos (G1 e G2 , por
1
Endereço para correspondência: Calle Camino de los Vinateros, 157, exemplo), possuírem diferentes probabilidades (P) de
Piso 2º, Puerta C, Moratalaz, C.P. 28030, Madrid, España. E-mail: acertar um item (i) utilizado para medir dita aptidão ou
w_andriola@yahoo.com habilidade (θ). Em notação matemática podemos afirmar,
2
A sigla DIF é originária do termo inglês Differential Item Functioning.
então, que existe DIF quando PiG1(θ) ≠ PiG2(θ).
644 Wagner Bandeira Andriola

Em palavras mais simples e menos técnicas, poderíamos parece venir como anillo al dedo para la evaluación del funcionamiento
dizer que a existência de DIF num teste ou item implica reconhecer diferencial de los items (...)” (p. 165). Neste contexto, a lógica
que sujeitos com a mesma capacidade ou magnitude no construto subjacente à detecção do DIF consiste em (1) estimar os
latente medido possuem diferentes probabilidades de acertá-lo, pelo parâmetros métricos dos itens para os grupos de interesse
simples fato de pertencerem a grupos demográficos distintos. Assim, (de referência e focal); (2) colocar ditos parâmetros em
a presença de DIF num instrumento de medida supõe o uma mesma escala; (3) representá-los através de suas
desrespeito ao suposto da uniformização das condições CCI’s; (4) comparar ditas CCI’s nos grupos escolhidos e,
de aplicação do mesmo, já que privilegia alguns sujeitos finalmente, (5) observar a significação estatística das
em detrimento de outros, por causas secundárias e possíveis discrepâncias entre as CCI’s.
irrelevantes ao propósito do teste (Muñiz, 1997). Ademais, Como medir com precisão a discrepância entre as
ditas causas podem e devem ser controladas. Por exemplo, CCI’s originárias de distintas subpopulações constitui o
segundo Ercikan (1998), durante o processo de problema central desta área de investigação psicológica e
elaboração dos itens o responsável por dita atividade educativa. Para tentar solucionar o dito problema, a partir
deverá evitar usar: da década de 1950, os estudiosos propuseram vários
— Termos ou símbolos conhecidos por grupos métodos para a determinação do DIF (Dorans &
demográficos muito específicos; Holland, 1993). Tal variedade de métodos, segundo
— Termos ou símbolos que possam ter diferentes Whitmore e Shumacker (1999), pode ser agrupada em
significados, segundo o contexto em que se use ou o duas categorias, de acordo com o critério utilizado na
grupo ao qual se refira; determinação do DIF:
— Sentenças cujo tamanho seja excessivamente — Métodos que utilizam um critério interno: o próprio
grande; escore ou a pontuação obtida pelos sujeitos no teste ou
— Sentenças ou termos pejorativos; grupo de itens estudado;
— Elementos secundários para aumentar a — Métodos que utilizam um critério externo: um critério
complexidade de uma sentença. externo ao teste ou grupo de itens, tal como, a pontuação
Se o psicometrista encontra-se analisando itens já em outros testes (Clauser, Nungester & Swaminathan,
construídos por terceiros deverá, então, recorrer aos 1996).
procedimentos estatísticos para detectar o DIF e Não obstante, existem outras propostas de
considerar ou supor que os aspectos enumerados por classificação. Por exemplo, Melenbergh (1989), Van der
Ercikan (1998) tenham sido controlados adequadamente. Flier, Melenbergh, Adèr e Wijn (1984), propuseram a
Segundo Muñiz (1997), a casuística é interminável e se seguinte:
pode dizer que não existem provas ou testes inteiramente — Métodos incondicionais: baseados no suposto de que
isentos de DIF. Trata-se trata, assim, de detectar a o grupo de sujeitos e itens tenha algum tipo de interação;
quantidade de DIF aceitável num determinado item ou — Métodos condicionais: baseados no suposto de que os
teste, segundo os objetivos do processo de avaliação. parâmetros do item sejam diferentes para os sujeitos com
Como destaca Andriola (2000a), a importância dos a mesma magnitude na variável latente, que são oriundos
estudos que objetivam a verificação do DIF é justificada de distintos grupos demográficos. Tal suposto está
por que cabe ao avaliador verificar se em seu teste existem baseado na idéia de que a dificuldade de um item tem
itens com DIF para que (1) possa buscar as causas que o dois componentes: um intrínseco (as características do
expliquem, (2) evitar sua utilização com o grupo em item, tais como, tipo — aberto ou fechado; tamanho do
desvantagem e, finalmente, (3) controlar os fatores enunciado e das alternativas; signos utilizados — verbal,
responsáveis pelo DIF para evitar construir novos itens numérico, abstrato, etc.) e um extrínseco (as características
com o mesmo problema (Ercikan, 1998; Hambleton, dos sujeitos, tais como, gênero, raça, idade, nível sócio-
1989b; Mislevy, 1996). Ressaltadas essas idéias econômico, background educativo, etc.). Nesse âmbito, a
fundamentais, é o momento de conhecermos os principais dificuldade de um item expressa a interação entre ditos
métodos utilizados, atualmente, na detecção do DIF, componentes (Scheuneman & Gerritz, 1990).
ademais de sua fundamentação matemático-estatística. Para Van der Flier, Melenbergh, Adèr e Wijn (1984)
são preferíveis os métodos condicionais, já que, como
Classificação dos Métodos para Detectar o DIF seu próprio nome indica, condicionam a probabilidade de
Segundo palavras de Hambleton, Swaminathan e resposta a um certo nível de habilidade. Todavia, a categoria
Rogers (1991), a TRI oferece um marco apropriado ao métodos condicionais conta com uma classificação proposta
estudo do DIF. Como afirma Muñiz (1997) a TRI “(...) por Millsap e Everson (1993):
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
Descrição dos Principais Métodos para Detectar o Funcionamento Diferencial dos Itens (DIF) 645

— Métodos de Invariância Condicional Observada: utilizam Entretanto, a diferença entre a proporção de acertos
as pontuações observadas no teste, desde a perspectiva dos dois grupos em cada um dos três níveis de magnitude
da Teoria Clássica dos Testes (TCT), isto é, utilizam o m, que poderíamos chamar de proporção condicional, é:
escore total como resultado da soma das pontuações — No nível mais baixo: 0,10 para o Grupo A e 0,20
nos itens (p. ex.: métodos de Mantel-Haenszel, Regressão para o Grupo B, ou seja, uma diferença de 0,10 favorável
Logística e Delta Gráfico); ao Grupo B;
— Métodos de Invariância Condicional Não Observada: — No nível médio: 0,50 para o Grupo A e 0,60 para o
utilizam a habilidade estimada através da TRI (p. ex.: Grupo B, ou seja, uma diferença de 0,10 favorável ao
métodos da medida da área entre as CCI’s, comparação Grupo B;
dos parâmetros dos itens, comparação das probabilidades, — No nível alto: 0,90 para o Grupo A e 1,00 para o
Qui-quadrado de Lord). Grupo B, ou seja, uma diferença de 0,10 favorável ao
Nesse contexto, devemos destacar que os métodos Grupo B.
condicionais estão fundamentados num conhecido Nesse âmbito, podemos observar que, quando
paradoxo, pelo menos no âmbito da literatura estatística,
condicionamos a proporção de acerto aos distintos níveis
denominado Paradoxo de Simpson (Dorans & Holland,
de habilidade, os resultados são bastante distintos da
1993).
mesma análise realizada com a amostra total, já que esta
última não considerou os distintos níveis de habilidade.
Paradoxo de Simpson: Fundamento para Detecção
Surge, então, a necessidade de diferenciar dois aspectos
do DIF
que estão subjacentes a estes diferentes resultados: o impacto
Dito paradoxo adota uma idéia simples e inteligente:
temos que comparar o comparável. Para ilustrar a aplicabilidade e o DIF.
e relevância de dito paradoxo na investigação do DIF, No primeiro tipo de análise, verificamos uma
apresentamos um exemplo citado por Dorans e Holland diferença quanto ao impacto. Dito termo faz referência à
(1993), cujos dados estão apresentados na Tabela 1. diferença entre os resultados de dois grupos de sujeitos;
é efeito das diferenças individuais reais entre os grupos
Tabela 1. Freqüências de Respostas de Dois Grupos a com respeito a variável latente ou construto medido
um Item Hipotético através do item ou teste (Dorans & Schmitt, 1993;
Zumbo, 1999). Retornando ao nosso exemplo,
Nível em m Grupo A Grupo B
Ncm/ Ncm/ observamos que os sujeitos do Grupo A têm uma maior
Nm Ncm Nm Nm Ncm Nm capacidade na variável latente medida pelo item, já que
Baixo obtiveram uma diferença de 0,10 a seu favor.
400 40 0,10 1000 200 0,20
No segundo tipo de análise, condicionamos as
Médio 1000 500 0,50 1000 600 0,60 proporções de acerto a três distintos níveis da variável
Alto 1000 900 0,90 400 400 1,00 latente, cujos resultados são favoráveis ao Grupo B. Neste
caso concreto, temos o exemplo de um item com DIF
Total 2400 1440 0,60 2400 1200 0,50 favorável aos sujeitos do Grupo B, ou seja, apesar de ter
uma menor capacidade na variável latente ou construto medido pelo
Os símbolos Nm, Ncm e Ncm/Nm estão referidos item estes sujeitos possuem maiores probabilidades de acertar ao
respectivamente: item em foco. Este tipo de análise é o mais adequado ao
— Ao número de sujeitos de magnitude m na variável estudo do DIF (Dorans & Holland, 1993; Van der Flier,
latente; e cols. 1984; Scheuneman & Gerritz, 1990).
— Ao número de sujeitos de magnitude m que Podemos dizer que, na prática da avaliação educativa
acertaram o item; e psicológica, o Paradoxo de Simpson enfatiza a importância
— A proporção de sujeitos de magnitude m que de comparar a probabilidade de acerto a um
acertaram o item. determinado item, considerando sempre que os sujeitos
Observamos que, dos 2.400 sujeitos do Grupo A, têm o mesmo grau ou magnitude na variável latente
60% (1.440) conseguiram acertar o item. Por outro lado,
medida pelo item. Existem diversos métodos ou
somente 50% dos sujeitos do Grupo B (1.200)
procedimentos para estudar o DIF, todos eles baseados
responderam-no corretamente. Assim, a diferença entre
no Paradoxo de Simpson, alguns dos quais serão descritos
a proporção de acertos nos dois grupos é de 0,10,
a seguir.
favorável ao Grupo A.
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
646 Wagner Bandeira Andriola

Cálculo da Área entre as CCI’s Os elementos dessa fórmula têm o mesmo significado
Consiste em estimar as CCI’s do item para os grupos da proposta por Rudner, Getson e Knight (1980), sendo
de interesse do avaliador ou investigador e, em seguida, a única diferença o intervalo adotado para os distintos
realizar o cálculo da área compreendida entre as CCI’s valores de θ que, neste caso, está compreendido entre -3
(Wainer, 1993). A área entre as CCI’s constitui um índice e +3. Outro procedimento para o cálculo do DIF foi
da discrepância entre elas. Em conseqüência, indica a proposto por Raju (1988):
possível existência de DIF, pois se ambas CCI’s 2(a2 − a1) 
 Da1a2 (b2 − b1 ) 

A = (1 − c ) ln 1 + e (a2 −a1 )  − (b2 − b1 )


coincidissem a área entre as mesmas teria valor zero e, Da 1 1−aa
Da 22
 
 
desse modo, não haveria DIF. A figura 1 ilustra a lógica Onde:
do método apresentando as CCI’s de um item para dois — a é o parâmetro de dificuldade;
grupos e a área entre ambas, que deverá ser calculada. — b é o parâmetro de discriminação;
— c é a probabilidade de acerto ao acaso;
CCI - 1
— D é uma constante de valor 1,7;
1
CCI - 2
— e é a base dos logaritmos neperianos, de valor
2,7182.
0,8
Para o uso desta fórmula, assume-se que o valor do
0,6 parâmetro c é o mesmo para os grupos analisados. Uma
P(θ) Área a ser vez calculada a área entre as CCI’s, o investigador poderá
calculada
0,4 adotar a decisão a respeito da existência ou não de DIF.
No entanto, deverá ter algum tipo de cuidado já que não
0,2 existem provas de significação estatística apropriadas para
a confrontação das duas CCI’s comparadas (Muñiz, 1997).

–2 –1 0 1 2 Comparação das Probabilidades de Acertar o Item


Habilidade (θ)
Camilli e Shepard (1994) apresentam uma grande
FiguraFigura
1. Representação de duas
1. Representação de duas CCI’s eCCI`S
a área queeasadistingue
área que as
vantagem na sua utilização. Segundo eles, dito método
distingue.
permite utilizar unicamente os valores de θ para os quais
existem sujeitos do grupo focal. Com este procedimento
No método das áreas, existem diversos procedimentos se pretende dar mais importância ao DIF nos intervalos
para a determinação do valor compreendido entre as CCI’s onde realmente existem indivíduos pertencentes ao grupo
dos grupos estudados. No caso da comparação de dois focal, e não em outras zonas de θ onde não existem
grupos, Rudner, Getson e Knight (1980) propuseram a sujeitos. Sua formulação matemática é:
seguinte fórmula para seu cálculo: nGF [PGR (θ j ) − PGF (θ j )]
DP = ∑ nGF
θ =4 j =1

A= ∑ PGR (θ j ) − PGF (θ j ) ∆θ Onde:


θ = −4 — PGR(θj) é a probabilidade que as pessoas do grupo
Onde: de referência têm de superar o item para o valor θj;
— PGR(θj) é o valor da probabilidade de acerto ao — PGF(θj) é a probabilidade que as pessoas do grupo
item do grupo de referência, dado θj; focal têm de superar o item para o valor θϕ;
— PGF(θj) é o valor da probabilidade de acerto ao — nGF é o número de pessoas do grupo focal.
item do grupo focal, dado θj; O somatório pode variar desde um até o número
— ∆θ é o valor da base de um retângulo (∆θ=0,005) total de pessoas do grupo focal (nGF), ou seja, só se
e altura [PGR(θj)-PGF(θj)]. consideram aqueles valores de θ obtidos pelos membros
Nesse procedimento as áreas são calculadas para os do grupo focal. Em síntese, como assinalam Camilli e
distintos valores de θ que estejam compreendidos no Shepard (1994), é uma forma de autoponderação
intervalo -4 a +4, com o incremento ∆θ. Nesse contexto, baseada nas pessoas do grupo focal, em que se dá mais
quanto menor o valor do incremento mais preciso será peso às zonas de θ onde estas se encontram e, por outro
o cálculo da área. Linn e Harnisch (1981) propuseram lado, se omitem as zonas de θ onde não existem indivíduos
outro procedimento dado por: de dito grupo.
θ =3
[PGR (θ j ) − PGF (θ j )]2 ∆θ No caso de que não existisse DIF, os valores PGR(θϕ)
A= ∑
θ = −3 e PGF(θj) coincidiriam para todos os valores de θj e, dessa
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
Descrição dos Principais Métodos para Detectar o Funcionamento Diferencial dos Itens (DIF) 647

maneira, o valor do índice DP seria zero. O DIF Qui-quadrado de Lord


aumentará na medida em que o valor do índice DP se Devido à limitação do método de comparação dos
distancie de zero, seja positivamente ou negativamente. parâmetros dos itens, Lord (1980) propôs outro
Se o valor é positivo, quer dizer que os valores PGR(θj) procedimento em que as comparações dos parâmetros a e
são superiores aos valores PGF(θj), o que indicaria que o b podem ser realizadas ao mesmo tempo, através do uso
item em questão está prejudicando o grupo focal. Em do teste Qui-quadrado. Sua formulação matemática é:
caso contrário, se o valor de DP é negativo, o item está
χ 2 = V ∑ −1V '
prejudicando o grupo de referência. Como ocorre no
método das áreas, tampouco aqui existe uma prova Onde:
estatística definitiva, que informe a respeito da significância — χ2 tem dois graus de liberdade;
do valor DP. — V é o vetor de dimensão (1 x 2) das diferenças
entre os parâmetros a e b dos grupos de referência e
Comparação dos Parâmetros dos Itens focal;
A lógica deste procedimento é simples: um item terá — V’ é o vetor transposto de V;
DIF se os parâmetros estimados nas subpopulações não — Σ-1 é a inversa da matriz soma de variâncias-
coincidem, isto é, têm diferenças significativas (Thissen, covariâncias de V para os grupos de referência e focal,
Steinberg & Wainer, 1993). No caso do modelo logístico cuja dimensão é 2 x 2.
de um parâmetro, o que vai ser comparado nas No caso de ser aplicado ao modelo logístico de um
subpopulações é o parâmetro b. Sua formulação é: parâmetro sua formulação matemática é mais parcimoniosa:
^ ^
bR− bF bF − bR
Z = χ2 =
^ ^
2 2
S (b R ) + S (b F ) Var (bF ) − Var (bR )

Onde: Onde bF e bR são os valores dos parâmetros b em


— bR e bF são os parâmetros da dificuldade do item, cada grupo e Var(bF) e Var(bR) as variâncias estimadas de
estimados em cada grupo (referência e focal); ditos parâmetros. Para observar a significância do qui-
— S2(bR) e S2(bF) são as variâncias de b em cada grupo quadrado deveremos comparar o valor observado com
(referência e focal); o crítico (Thissen e cols., 1993).
— Z tem distribuição normal.
O valor obtido de Z é comparado com o da Qui-quadrado de Scheuneman
distribuição normal, correspondente ao nível de confiança O método proposto por J. Scheuneman, no ano 1979,
adotado, o que permite corroborar ou não a hipótese ficou posteriormente conhecido como Qui-quadrado de
nula (H0: b1 = b2). Para os modelos logísticos de dois e Scheuneman. O autor parte da premissa de que as
três parâmetros teremos que comparar os parâmetros a probabilidades de acerto dos grupos de referência e focal
e b, considerando-se o valor do parâmetro c é invariante são iguais nos distintos níveis de habilidade, isto é: piFK =
(Muñiz, 1997). As formulações matemáticas para a piRK, onde:
comparação de a e b são: — piRK é a probabilidade do grupo de referência de
^ ^ ^ ^ acertar o item i no intervalo k;
aR−aF bR − bF
Za = Zb = — piFK é a probabilidade do grupo focal de acertar o
^ ^ ^ ^
S2(aR) +S2(aF) S 2 (bR ) + S 2 (bF ) item i no intervalo k.
Onde: Para o estudo dessa hipótese, Sheuneman (1979)
— bR e bF são os parâmetros de dificuldade do item, propôs a seguinte prova estatística:
estimados em cada grupo (referência e focal);
— âR e âF são os parâmetros de discriminação do
k 
χ s2 = ∑  k
[A − E ( Ak )]2 + [Ck − E (Ck )]2 

k =1  E ( Ak ) E (Ck ) 
item, estimados em cada grupo (referência e focal);
— S2(bR) e S2(bF) são as variâncias de b em cada grupo Na qual:
(referência e focal); — E(Ak) = nRk . m1k / Tk;
— S2(âR) e S2(âF) são as variâncias de a em cada grupo — E(Ck) = nFk . m1k / Tk;
(referência e focal); — nFk é o número de pessoas do grupo focal;
— Z tem distribuição normal. — nRk é o número de pessoas do grupo de referência;
A principal limitação desse procedimento é que os — m1k é o número de sujeitos que acertaram o item,
parâmetros a e b têm que ser comparados separadamente. que estão no nível k da pontuação observada;
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
648 Wagner Bandeira Andriola

— Tk é o número de sujeitos dos grupos de referência — g como grupo (de referência ou focal) ao qual
e focal que existe no nível k da pontuação observada. pertencem os sujeitos;
Scheuneman (1979) assume que o valor do χ2 segue — τ3 como parâmetro indicador da possível interação
uma distribuição como qui-quadrado com (k-1)(r-1) graus entre θ e g.
de liberdade, sendo r o número de grupos. Segundo ele, Para explicar o DIF nos grupos de interesse (de
a principal vantagem do método está na sua simplicidade referência e focal), deveremos especificar distintas
de cálculo (Scheuneman, 1981). equações. Assim, um item terá DIF uniforme ou
consistente se τ2 ≠ 0 e τ3 = 0; e terá DIF não uniforme ou
Qui-quadrado de Pearson ou Total inconsistente se τ3 ≠ 0 (seja ou não τ2 = 0). Como destaca
Dito método é também conhecido como total ou Bock (1975), este é um procedimento estatístico para
completo, porque utiliza tanto os totais marginais de predizer uma variável dependente, de natureza
respostas corretas como os totais marginais das respostas dicotômica, a partir de algumas variáveis independentes,
incorretas. Sua formulação matemática é dada por: em nosso caso, habilidade (θ) e grupo (g), sendo, ademais,
k 
T [A − E ( Ak )]2 + [Ck − E (Ck )]2  um dos mais utilizados para detectar o DIF
χ2 = ∑ k x k  (Swaminathan & Rogers, 1990; Rogers & Swaminathan,
k =1  m0 k E ( Ak ) E (Ck ) 
1993; Zumbo, 1999).
Onde:
— Tk é o número de sujeitos dos grupos de referência Método Mantel-Haenszel
e focal que existe no nível k da pontuação observada; Foi desenvolvido por N. Mantel e W. Haenszel no
— m0k é o número de sujeitos que erraram o item e ano 1959, e aplicado ao estudo do DIF por P. W. Holland
que estão no nível k da pontuação observada; e D. T. Thayer em 1988 (Angoff, 1993; Dorans &
— E(Ak) = nRk . m1k / Tk; Holland, 1993). Consiste, basicamente, na comparação
— E(Ck) = nFk . m1k / Tk; das freqüências observadas e esperadas de acertos e erros
— nFk é o número de pessoas do grupo focal; nos grupos de referência e focal, de acordo com os
— nRk é o número de pessoas do grupo de referência; distintos níveis de habilidade (j) escolhidos pelo
— m1k é o número de sujeitos que acertaram o item, investigador. Nesse contexto, as respostas dos sujeitos
que estão no nível k da pontuação observada. são organizadas em uma tabela de freqüências, como a
Na opinião de Hidalgo Montesinos, López Pina e apresentada a seguir.
Sánchez Meca (1997) a vantagem desse método reside
no fato de considerar as freqüências observadas de Tabela 2. Freqüências Observadas de Respostas a um
respostas incorretas. Item Hipotético
Grupos Acertos (1) Erros (0) Total
Regressão Logística
O modelo para predizer a probabilidade de ocorrência De referência Aj Bj nRj
de uma resposta correta a um item, mais conhecido como
método da regressão logística, tem a seguinte formulação Focal Cj Dj nFj
matemática:
exp( z ) Total m1j m0j Tj
P ( u = 1) =
1 + exp( z )
Onde:
Baseados nesta lógica, N. Mantel e W. Haenszel
— u é a resposta ao item estudado, sendo z = τ0 + τ1q
+ τ2g + τ3(θg). propuseram a seguinte fórmula para a comparação das
freqüências:
Na segunda formulação, temos: ∑ A D
S

j j
— τ0 como ponto de interseção da reta de regressão j =1

T
com o eixo das abscissas; α MH = S
j

— τ1 como inclinação da reta de regressão; ∑


j =1
B jC j

— θ como a habilidade ou variável latente medida T j

pelo item; Onde:


— Aj é a freqüência observada das respostas corretas
— τ 2 como a diferença entre o rendimento dos
do grupo de referência nos distintos níveis de pontuação
grupos no item em foco;
escolhidos;
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
Descrição dos Principais Métodos para Detectar o Funcionamento Diferencial dos Itens (DIF) 649

— Bj é a freqüência observada das respostas incorretas — nFj é o número de sujeitos do grupo focal no nível
do grupo de referência nos níveis de pontuação escolhidos; j da pontuação observada;
— Cj é a freqüência observada das respostas corretas — m1j é o número de sujeitos do nível j da pontuação
do grupo focal nos níveis de pontuação escolhidos; observada, que acertou ao item;
— D j é a freqüência observada das respostas — m0j é o número de sujeitos do nível j da pontuação
incorretas do grupo focal nos níveis de pontuação observada, que não acertou o item;
escolhidos; — Tj é o número de sujeitos dos grupos de referência
— Tj é o total de erros e acertos, de cada grupo, nos e focal, que existe no nível j da pontuação observada.
níveis de pontuação escolhidos. A freqüência esperada para os distintos valores de Aj,
O coeficiente αMH é uma medida da quantidade de em cada nível da pontuação observada, pode ser
DIF, no qual o valor 1,0 significará idêntico calculada mediante o uso da fórmula:
comportamento do item para os grupos; os valores n Rj m 1 j
E(Aj) =
menores que 1,0 significarão maiores possibilidades de T j
êxito no item para o grupo de referência (Longford, Onde:
Holland & Thayer, 1993). O Educational Testing Service — nRj é o número de sujeitos do grupo de referência
(ETS) propôs uma escala hierárquica para os distintos no nível j da pontuação observada;
valores do coeficiente α MH , de acordo com sua — m1j é o número de sujeitos do nível j da pontuação
magnitude (Zwick, Thayer & Lewis, 1999): observada, que acertou o item;
— Categoria C: itens cujos valores absolutos sejam 1,0 — Tj é o número de sujeitos dos grupos de referência
< αMH < 1,5 (sendo adotado α=0,05) são considerados e focal existente no nível j da pontuação observada.
itens com DIF severo;
— Categoria B: itens cujos valores absolutos sejam 0,0 Método Padronizado
< αMH < 1,0 (sendo adotado α=0,05) são considerados O método padronizado e o de Mantel-Haenszel são
itens com DIF moderado; amplamente utilizados pelo Educational Testing Service
— Categoria A: itens cujos valores absolutos não sejam (ETS). Possibilita o cálculo do índice de discrepância entre
agrupados em nenhuma das duas categorias anteriores os grupos com respeito ao rendimento num item (p-
(sendo adotado α=0,05) são considerados itens com DIF difference). Sua formulação matemática é dada por:
desprezível. ∑ wm ( Pfm − Prm )
Existe um estatístico de contraste para o coeficiente STD pDIF = m
αMH, que possibilita confrontar as hipóteses nula (H0: ∑ wm
m
αMH=1) e alternativa (H1: αMH>1). O contraste é expresso Onde:
em termos de: — w m são os pesos adotados para os grupos
 K K 
2
estudados. Segundo Dorans e Holland (1993), alguns
 ∑ A j − ∑ E ( A j ) − 0,50 
χ 2 MH =
 j =1 j =1  valores possíveis para wm são:
— wm = Ntm, isto é, o número total de sujeitos do
K

∑ Var ( A j )
Onde: nível m de habilidade;
j =1

— Aj é a freqüência de respostas corretas do grupo — w m = Nrm, isto é, o número total de sujeitos


de referência nos distintos níveis de pontuação observada; pertencentes ao grupo de referência, que estão no nível m
— Var (Aj) é a variância de Aj; de habilidade;
— E (Aj) é a freqüência esperada para os distintos — w m = N fm, isto é, o número total de sujeitos
valores de Aj em cada nível da pontuação observada. pertencentes ao grupo focal, que estão no nível m de
O valor do χ2MH se distribui aproximadamente como habilidade;
qui-quadrado com um grau de liberdade. A variância da — wm = a freqüência relativa de sujeitos pertencentes
freqüência das respostas corretas do grupo de referência, a algum dos grupos, que estão no nível m de habilidade;
nos distintos níveis de pontuação observada, é dada por: — Pfm e Prm são, respectivamente, as proporções de
sujeitos que acertaram ao item, comparadas ao número
n Rj n Fj m1 j m0 j
Var ( A j ) = total dos que contestaram ao mesmo item, no grupo
T j2 (T j − 1) focal e de referência.
Onde: O índice STP pDIF pode assumir valores entre –1 e
— nRj é o número de sujeitos do grupo de referência +1, sendo que valores positivos indicam que o item
no nível j da pontuação observada; favorece ao grupo focal; valores negativos indicam que
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
650 Wagner Bandeira Andriola

o item favorece ao grupo de referência. Para valores de Onde G2 tem distribuição como Qui-quadrado, com
STP pDIF entre –0,05 e +0,05 o DIF é irrelevante; para g-1 graus de liberdade; fijk é a freqüência observada de
valores entre –0,06 e -0,010 e entre +0,06 e +0,010 o sujeitos que acertaram (k=1) ou não (k=2) o item em
DIF é moderado; para valores superiores a +0,10 e foco, que estão na categoria de pontuação i e pertencem
inferiores a -0,10 o DIF é severo (Dorans & Holland, ao grupo j. Para o cálculo da freqüência esperada (Fijk)
1993). devemos usar a fórmula:
 g  2 
Método Logístico Interativo  f  f 
 ∑ ijk  ∑ ijk 
Foi formulado por F. B. Baker no início da década de Fijk = 
j =1  k =1 
 g 2 
1980, como uma resposta às limitações do Qui-quadrado  f 
 ∑ ∑ ijk 
de Scheuneman (Baker, 1981a, 1981b). O modelo  j =1 k =1 
saturado de dito método tem a seguinte formulação
matemática: Principais Limitações dos Métodos para Detectar
ln (Fij1 / Fij2) = C + Si + Gj + (SG)ij, onde: o DIF
— ln é o logaritmo natural da proporção de respostas Autores como Camilli e Shepard (1994), O’Neill e
corretas (k=1) e incorretas (k=2); McPeek (1993) e Schmitt, Holland e Dorans (1993)
— Fij1 e Fij2 são, respectivamente, a freqüência esperada assumem, publicamente, suas preocupações pessoais
de sujeitos (F) com pontuação i situados numa sobre a importância que os investigadores da área dão
determinada categoria (Si), que pertencem ao grupo j (Gj) aos resultados matemático-estatísticos, esquecendo as
e que acertarão (k=1) ou não (k=2) o item em foco; considerações teóricas sobre as possíveis causas do DIF.
— C representa o parâmetro de dificuldade do item Segundo eles, essa é uma tendência muito freqüente nas
para a amostra total; investigações sobre o DIF. Compartilhamos com tais
— Si é o efeito principal da pontuação i pertencente a autores a preocupação pela ausência de hipóteses baseadas
uma categoria S; em teorias sólidas, que sejam explicativas do DIF e que
— Gj é o efeito principal do grupo j; deveriam estar presentes no âmbito da investigação
— SG ij é o parâmetro para a interação entre a científica. Mantendo essa visão crítica, precisamos
pontuação i e o grupo j. conscientizarmos das limitações da grande variedade de
métodos descritos (Andriola, 2000b) entre as quais
O modelo saturado é utilizado para verificar a
destacamos as seguintes:
presença do DIF não uniforme ou inconsistente. Porém,
— Método da Comparação da Área entre as CCI’s: não
como destacam Van Der Flier e colaboradores (1984),
conta com provas de significância estatística para
para verificar a presença do DIF uniforme ou consistente,
confrontar o valor empírico da área entre as duas CCI’s
é comum adotar-se um modelo não saturado, cuja
comparadas (Muñiz, 1997). Ainda que a ausência de uma
formulação matemática é:
prova de significação constitua um problema
ln (Fij1 / Fij2) = C + Si + Gj.
metodológico, na prática é aconselhável revisar o item.
Já o modelo nulo, que representa a ausência de DIF,
Nesse âmbito, é melhor incrementar o erro Tipo I (revisar
vem dado por:
ou eliminar itens que não tenham DIF), que Tipo II (não
ln (Fij1 / Fij2) = C + Si.
revisar ou deixar de eliminar itens que tenham DIF).
Nos três casos, temos: — Método da Comparação das Probabilidades: como ocorre
s
∑ Si =0
no método das áreas, tampouco aqui existe uma prova
i =1 estatística definitiva, que informe sobre a significância do
g valor DP. Assim, é conveniente adotar o mesmo
∑G j =0 procedimento de revisão dos itens, apresentado no
j =1
método das áreas.
s g
∑ ( SG ) ij = ∑ ( SG ) ij = 0 — Método da Comparação dos Parâmetros dos Itens: sua
i =1 j =1 principal limitação reside na comparação por separado
dos parâmetros a e b, para as sub-populações ou grupos
Para verificar o ajuste do modelo aos dados foi estudados.
proposto o seguinte procedimento: — Método do Qui-quadrado de Lord: a equivalência ou
s g 2  f ijk  não entre os tamanhos dos grupos focal e de referência
G2 = 2∑ ∑ ∑ f ijk ln F 
pode ocasionar a obtenção de resultados distintos para

i =1 j =1 k =1  ijk 
o DIF.
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
Descrição dos Principais Métodos para Detectar o Funcionamento Diferencial dos Itens (DIF) 651

— Método do Qui-quadrado de Scheuneman: padece do de eqüidade em processos avaliativos; permite aos sujeitos
mesmo problema do Qui-quadrado de Lord, isto é, os que possuem mesmo grau ou nível na variável latente ou
resultados obtidos para o DIF estão associados aos construto medido pelo item obter melhores resultados,
tamanhos amostrais dos grupos focal e de referência. já que esses têm maiores probabilidades de acertá-lo
Ademais, segundo Baker (1981a), o fato de considerar- (Douglas e cols. 1996).
se, unicamente, a proporção de acertos, pode afetar os Nesse âmbito, caberá aos responsáveis pela
resultados pela presença de diferenças reais entre os grupos construção, administração e comercialização de testes,
(diferenças no impacto). psicológicos e pedagógicos, verificar a presença de itens
— Método do Qui-quadrado de Pearson ou Total: possui o com DIF em seus instrumentos, já que a sua existência é
mesmo problema dos métodos de Lord e de um fator de invalidação dos resultados. Também os
Scheuneman, isto é, a desigualdade dos tamanhos dos psicometristas que começam a organizar bancos de itens
grupos focal e de referência pode ocasionar resultados necessitam realizar estudos para verificar a presença de
contraditórios, em função da equivalência ou não entre DIF e, assim, evitar utilizá-los em processos avaliativos
ambos grupos. (Andriola, 1998).
— Método Mantel-Haenszel: como outro dos métodos Para finalizar, mencionaremos uma célebre frase latina
que utilizam tabelas de contingência sofre, igualmente, o que é muito sugestiva e sintetiza, na nossa opinião, a
mesmo problema do Qui-quadrado de Lord, do Qui- importância dos estudos sobre o DIF no âmbito da
quadrado de Scheuneman e do Qui-quadrado de Pearson avaliação psicológica e educativa: fiat justítia, péreat mundus.3
ou Total, isto é, a desigualdade dos tamanhos dos grupos
focal e de referência pode proporcionar resultados
distintos para os índices DIF, em função da equivalência Referências
ou não entre ditos grupos.
Apesar dessas limitações, Camilli e Shepard (1994) Allalouf, A., Hambleton, R. K. & Siresi, S. G. (1999). Identifying the causes
of DIF in translated verbal items. Journal of Educational Measurement, 36,
apresentam algumas vantagens dos modernos métodos 185-198.
para detectar o DIF. Segundo os mesmos, parece haver Anastasi, A. (1988). Psychological testing. New York: MacMillan.
um acordo generalizado sobre a potência e flexibilidade Andriola, W. B. (1998). Utilização da teoria de resposta ao item (TRI) para
dos métodos baseados na TRI, sempre que (1) os a organização de um banco de itens destinados à avaliação do raciocínio
verbal. Psicologia: Reflexão e Crítica, 11, 295-308.
tamanhos amostrais sejam adequados à estimação de Andriola, W. B. (2000a). Funcionamento diferencial dos itens (DIF): Estudo
parâmetros estáveis dos itens, (2) utilizem-se mais de um com analogias para medir o raciocínio verbal. Psicologia: Reflexão e
método para detectar o DIF e, ademais, (3) utilizem-se Crítica, 13, 473-481.
Andriola, W. B. (2000b). Principales métodos para la determinación del
procedimentos estatísticos conjuntamente com funcionamiento diferencial de los ítems (DIF). XII Congreso Nacional
procedimentos qualitativos, ou seja, opinião de y I Iberoamericano de Pedagogía. Resúmenes de Comunicaciones, Tomo II, 49-50.
especialistas na área (Allalouf e cols. 1999; Angoff, 1993; Angoff, W. H. (1993). Perspectives on differential item functioning. Em P.
W. Holland & H. Wainer (Orgs.), Differential item functioning (pp. 3-24).
Douglas, Rousos & Stout, 1996; Downing & Haladyna, New Jersey: Lawrence Erlbaum.
1997; Zumbo, 1999). Baker, F. B. (1981a). A criticism of Scheuneman’s item bias technique.
Journal of Educational Measurement, 18, 59-62.
Baker, F. B. (1981b). Log-linear, logit linear models. A didactic. Journal of
Considerações Finais
Educational Statistics, 6, 75-102.
Bock, R. D. (1975). Multivariate statistical methods. New York: McGraw-Hill.
Verificamos que apesar de existir grande variedade Camilli, G. & Shepard, L. A. (1994). MMSS. Methods for identifying biased test
de métodos para investigar o problema do DIF, os items. California: Sage.
Clauser, B. E., Nungester, R. J. & Swaminathan, H. (1996). Improving the
mesmos padecem limitações. Autores mais críticos matching for DIF analysis by conditioning on both test score and an
aconselham a complementar as análises estatísticas obtidas educational background variable. Journal of Educational Measurement,
pelo uso de mais de um procedimento de detecção do 33, 453-464.
Dorans, N. J. & Holland, P. W. (1993). DIF detection and description: Man–
DIF, com a opinião de especialistas na área e, assim, tel-Haenszel and Standardization. Em P. W. Holland & H. Wainer
aumentar a validez dos resultados (Allalouf, Hambleton (Orgs.). Differential item functioning (pp. 35-66). New Jersey: Lawrence
& Siresi, 1999; Angoff, 1993; Zumbo, 1999). Erlbaum.
Tentamos demonstrar que a presença do DIF em itens Dorans, N. J. & Schmitt, A. P. (1993). Constructed response and differencial
item functioning: A pragmatic approach. Em R. E. Bennett & W. C.
de instrumentos para medida psicológica e pedagógica é Ward (Orgs.), Construction versus multiple choice items in cognitive measurement
um grave problema que atenta contra o suposto da (pp. 137-166). New Jersey: Lawrence Erlbaum.
padronização ou uniformização das condições de
3
Faça-se justiça; pereça o mundo.
avaliação. É uma fonte de injustiça, já que produz falta
Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652
652 Wagner Bandeira Andriola

Douglas, J. A., Roussos, L. A. & Stout, W. (1996). Item-Bundle DIF hypothesis Raju, N. S. (1988). The area between two item characteristic curves. Psi–
testing: Identifying suspect bundles and assessing their differential chometrika, 42, 549-565.
functioning. Journal of Educational Measurement, 33, 465-484. Rogers, H. J. & Swaminathan, H. (1993). A comparison of logistic regression
Downing, S. M. & Haladyna, T. M. (1997). Test item development: Validity and Mantel-Haenszel procedures for detecting differential item
evidence from quality assurance procedures. Applied Measurement in functioning. Applied Psychological Measurement, 17, 105-116.
Education, 10, 61-82. Rudner, L. M., Getson, P. R. & Knight, D. L. (1980). Biased item detection
Ercikan, K. (1998). Translation effects in international assessments. techniques. Journal of Educational Statistics, 5, 213-233.
International Journal of Educational Research, 29, 543-553. Scheuneman, J. D. (1979). A new method for assessing bias in test items.
Hambleton, R. K. (1997). Perspectivas futuras y aplicaciones. Em J. Muñiz, Journal of Educational Measurement, 16, 143-152.
Introducción a la teoría de respuesta a los ítems (pp. 203-213). Madrid: Ediciones Scheuneman, J. D. (1981). A response to Baker’s criticism. Journal of Edu–
Psicología Pirámide. cational Measurement, 18, 63-66.
Hambleton, R. K. (1989a). Principles and selected applications of item Scheuneman, J. D. & Gerritz, K. (1990). Using differential item functioning
response theory .Em R. L. Linn (Org.), Educational measurement (pp. procedures to explore sources of item difficulty and group
147-200). New York: MacMilan. performance characteristics. Journal of Educational Measurement, 27, 109-
Hambleton, R. K. (1989b). Introduction. International Journal of Educational 131.
Research, 13, 123-125. Schmitt, A. P., Holland, P. W. & Dorans, N. J. (1993). Evaluating hypotheses
Hambleton, R. K. (1990). Item response theory: Introduction and biblio- about differential item functioning. Em P. W. Holland & H. Wainer
graphy. Psicothema, II, 97-107. (Orgs.), Differential item functioning (pp. 281-315). New Jersey: Lawrence
Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of Erlbaum.
item response theory. North Caroline: Sage. Swaminathan, H. & Rogers, H. J. (1990). Detecting differential item func–
Hidalgo Montesinos, M. D., López Pina, J. A. & Sánchez Meca, J. (1997). tioning using logistic regression procedures. Journal of Educational
Error tipo I y potencia de las pruebas chi-cuadrado en el estudio del Measurement, 27, 361-370.
funcionamiento diferencial de los ítems. Revista de Investigación Thissen, D., Steinberg, L. & Wainer, H. (1993). Detection of differential
Educativa, 15, 149-168. item functioning using the parameters of item response models.
Linn, R. L. & Harnisch, D. L. (1981). Interactions between item content Em P. W. Holland & H. Wainer (Orgs.). Differential item functioning (pp.
and group membership on achievement test items. Journal of 67-114). New Jersey: Lawrence Erlbaum.
Educational Measurement, 18, 109-118. Van der Flier, H., Mellebergh, G. J., Adèr, H. J. & Wijn, M. (1984). An in–
Longford, N. T., Holland, P. W. & Thayer, D. T. (1993). Stability of the MH teractive item bias detection method. Journal of Educational Measurement,
D-DIF statistics across populations. Em P. W. Holland & H. Wainer 21, 131-145.
(Orgs.). Differential item functioning (pp. 171-196). New Jersey: Lawrence Wainer, H. (1993). Model-Based standardized measurement of an item’s
Erlbaum. differential impact. Em P. W. Holland & H. Wainer (Orgs.). Differential
Lord, F. M. (1980). Applications of item response theory to practical testing problems. item functioning (pp. 123-136). New Jersey: Lawrence Erlbaum.
New Jersey: Lawrence Erlbaum. Whitmore, M. L. & Shumacker, R. E. (1999). A comparison of logistic re-
Martínez Arias, R. (1997). Psicometría. Teoría de los tests psicológicos y educativos. gression and analysis de variance differential item functioning
Madrid: Síntesis. detection methods. Educational and Psychological Measurement, 59, 910-
Mellenbergh, G. J. (1989). Item bias and item response theory. International 927.
Journal of Educational Research, 13, 127-143. Zumbo, B. D. (1999). A handbook on the theory and methods of differential item
Millsap, R. E. & Everson, H. T. (1993). Methodology review: Statistical functioning (DIF). Logistic regression modeling as a unitary framework for
approaches for assessing measurement bias. Applied Psychological binary and Likert-type (ordinal) item scores. Ottawa: Directorate of Human
Measurement, 17, 277-334. Resources Research and Evaluation, Department of National Defense
Mislevy, R. J. (1996). Test theory reconceived. Journal of Educational Mea– of Canadá.
surement, 33, 379-416. Zwick, R., Thayer, D. T. & Lewis, C. (1999). An empirical Bayes approach
Muñiz, J. (1997). Introducción a la teoría de respuesta a los items. Madrid: Pirámide. to Mantel-Haenszel DIF analysis. Journal of Educational Measurement,
O’Neill, K. A. & McPeek, W. M. (1993). Item and test characteristics that are 36, 1-28.
associated with differential item functioning. Em P. W. Holland & H.
Wainer (Orgs.). Differential item functioning (pp. 255-276). New Jersey: Recebido: 06/11/2000
Lawrence Erlbaum. Revisado: 20/01/2001
Pasquali, L. (2000). Psicometria: Teoria dos testes psicológicos. Brasília: Prática. Aceite Final: 15/03/2001

Sobre o autor
Wagner Bandeira Andriola é Psicólogo, Especialista em Psicometria (UnB), Mestre em Psicologia
Social e do Trabalho (UnB), Doutorando em Avaliação Educativa pela Universidad Complutense de
Madrid (UCM), Professor do Curso de Pedagogia da Universidade Federal do Ceará (UFC).

Psicologia: Reflexão e Crítica, 2001, 14(3), pp. 643-652