Sie sind auf Seite 1von 22

Avaliando o impacto da Olimpada Brasileira de Matemtica das Escolas Pblicas (OBMEP) no desempenho de matemtica nas avaliaes educacionais

Roberta Loboda Biondi Ita-Unibanco Lgia Vasconcellos Ita-Unibanco Naercio Aquino de Menezes-Filho Insper - FEA/USP

Resumo A Olimpada Brasileira de Matemtica das Escolas Pblicas (OBMEP) promovida desde 2005 pelo Governo Federal em parceria com o IMPA (Instituto de Matemtica Pura e Aplicada) e tem entre seus objetivos: incentivar o estudo de matemtica e contribuir para a melhoria da qualidade da educao bsica. Neste trabalho avaliamos o impacto da OBMEP nas notas mdias de matemtica das escolas pblicas na Prova Brasil (Inep/MEC) e realizamos uma anlise custo-benefcio do programa. Utilizamos o mtodo de combinar regresso linear com erros-padro robustos e a ponderao pelo inverso do propensity score estimado. O estimador resultante pertence classe dos estimadores duplamente robustos por ser assintoticamente mais eficiente que os outros mtodos baseados na probabilidade estimada. Demonstramos que a OBMEP tem efeito positivo e estatisticamente significativo nas notas mdias de matemtica das escolas na Prova Brasil (2007), na 8 srie do ensino fundamental. Esse impacto crescente conforme o maior nmero de participaes das escolas nas edies anuais da OBMEP, e maior nos percentis mais elevados das distribuies de notas dos alunos. Realizamos testes de robustez que corroboraram tais resultados. A anlise de custo-benefcio indicou que o investimento da OBMEP compensa em termos de benefcios salariais futuros para os participantes. Palavras chave: avaliao de impacto; estimador duplamente robusto; desempenho escolar; retorno econmico. Abstract The Olimpada Brasileira de Matemtica das Escolas Pblicas (OBMEP) has been promoted since 2005 by the Federal Government, together with IMPA (Institute of Pure and Applied Mathematics), with the objectives of motivating the students to study Mathematics and leads to the improvement of basic education. In this paper we evaluate OBMEPs impact over the schools performance in mathematics in Prova Brasil (Inep/MEC) and analyze the programs cost-benefit relation. The method based on combining regression and propensity score weighting was used. The resulting estimator was doubly-robust for being more efficient asymptotically then other methods based on propensity score. It was proved that OBMEP has a positive and statistically significant impact over the school performance in mathematics in Prova Brasil (2007), in Ensino Fundamentals 8th grade. This impact grows as the school participates in other OBMEPs annual editions, and its larger on the higher percentiles of the students grades distribution. Robustness tests confirmed these results. The cost-benefit analysis showed that the investment in OBMEP brings benefits in terms of the participants future income that overcome its costs. Keywords: impact evaluation, doubly-robust estimators, scholar achievement, economic return. Classificao JEL: I2 Educao

roberta.biondi@itau-unibanco.com.br ligia.vasconcellos@itau-unibanco.com.br NaercioAMF@insper.org.br Os autores agradecem as contribuies dos membros do Conselho de Administrao do IMPA, especialmente a Marcelo Viana e Eduardo Moacir Krieger.

Introduo

Atualmente, o debate educacional no Brasil est centrado na qualidade da educao oferecida pelas escolas e na universalizao do ensino infantil e mdio. Em relao ao atendimento escolar, reconhecido que ele est praticamente universalizado entre os jovens de 6 a 14 anos de idade, em 2007, 97% das crianas e adolescentes nessa idade estavam frequentando escola. Entretanto, no podemos dizer o mesmo das crianas de 0 a 5 anos que demandam cuidados na primeira infncia e acesso educao infantil, assim como dos jovens em idade para cursar o ensino mdio, 15 a 17 anos. Nessas faixas a taxa de atendimento em 2007 foi de 35,7% e 82,1% respectivamente1. Em relao qualidade da educao, as ltimas avaliaes educacionais nacionais mostraram variaes positivas nos testes de proficincia, entretanto o desempenho dos estudantes brasileiros nas avaliaes internacionais como o PISA (Programme for International Student Assessmet) evidenciam a baixa qualidade do ensino no pas. O Brasil ocupou as ltimas posies na comparao com os cinquenta e sete pases participantes do PISA 2006. Diversas polticas educacionais dos Governos Federais, Municipais e Estaduais, assim como iniciativas da sociedade civil e empresarial se voltaram para essas duas questes, mais especialmente para a qualidade da educao oferecida pelas escolas pblicas brasileiras. Este artigo traz a avaliao econmica, entendida como avaliao de impacto e anlise de custo-benefcio, da Olimpada Brasileira de Matemtica das Escolas Pblicas (OBMEP), um programa com objetivos voltados para a melhoria da qualidade da educao. A Olimpada Brasileira de Matemtica das Escolas Pblicas (OBMEP) promovida desde 2005 pelo Ministrio da Educao e Ministrio da Cincia e Tecnologia, em parceria com o Instituto de Matemtica Pura e Aplicada (IMPA) e com a Sociedade Brasileira de Matemtica (SBM), sendo os dois ltimos responsveis pela Direo Acadmica. Em 2009, a Olimpada chegou sua 5a edio e recebeu pelo menos 19 milhes de alunos inscritos. A cada edio observamos um nmero cada vez maior de escolas e alunos inscritos (Tabela 1). O nmero de alunos participantes desse programa muito expressivo quando comparado s outras avaliaes educacionais existentes no pas, e considerado um dos maiores concursos realizados entre os alunos das escolas pblicas do pas. Sabe-se que o IMPA conta com uma equipe ampla, organizada em coordenaes regionais, para operacionalizar a OBMEP, que atinge inclusive alunos da zona rural do pas. Tabela 1 Inscries nas 4 edies da OBMEP 1 fase
N escolas Inscries alunos % Municpios brasileiros
Fonte: dados da OBMEP

2005 31.030 10.520.831 93,50%

2006 2007 2008 32.655 38.450 40.377 14.181.705 17.341.732 18.326.029 94,50% 98,10% 98,70%

De acordo com seu Regulamento, a OBMEP tem como seus objetivos: estimular e promover o estudo da matemtica entre alunos das escolas pblicas; contribuir para a melhoria da qualidade da Educao Bsica; identificar jovens talentos e incentivar seu ingresso nas reas cientficas e tecnolgicas; incentivar o aperfeioamento dos professores das escolas pblicas, contribuindo para a sua valorizao profissional;

Taxas de atendimento calculadas com os microdados da Pesquisa Nacional por Amostra de Domiclio (PNAD/IBGE) de 2007.

contribuir para a integrao das escolas pblicas com as universidades pblicas, os institutos de pesquisa e sociedades cientficas; e por fim promover a incluso social por meio da difuso do conhecimento. Reconhecendo os objetivos do programa de melhorar a qualidade da educao pblica, especialmente no ensino de matemtica, assim como sua abrangncia em termos de participantes, razovel supor que a OBMEP possa influenciar de forma positiva o resultado mdio das escolas pblicas nas avaliaes de larga escala promovidas pelo Governo para medir a qualidade da educao, como a Prova Brasil. Todas as escolas inscritas na Olimpada devem receber o Banco de Questes, uma apostila com questes de matemtica e suas respectivas solues elaborada pela equipe do IMPA. Essa apostila encaminhada aos professores responsveis pela Olimpada na escola e o uso desse material facultativo. Defendemos que esse instrumento pode influenciar o estudo de matemtica nas escolas inscritas e melhorar o desempenho dos alunos nas avaliaes educacionais em larga escala. Trata-se de um material de qualidade elaborado pelos professores do IMPA e membros da Sociedade Brasileira de Matemtica, que chega aos professores das escolas pblicas, que por sua vez podem aproveit-lo com seus alunos. Nesse contexto, a proposta aqui apresentar os resultados da avaliao de impacto da OBMEP, a partir da qual possvel quantificar seus efeitos na qualidade da educao recebida pelos jovens brasileiros. A motivao principal da avaliao de impacto da Olimpada captar o efeito mdio desse programa na nota mdia de matemtica das escolas e calcular o retorno econmico desse programa comparando os custos e benefcios futuros dos estudantes. Frente aos objetivos da Olimpada, as questes a serem respondidas com esse tipo de anlise so: possvel identificar em avaliaes governamentais de larga escala o incentivo dado pela OBMEP ao estudo de matemtica nas escolas pblicas? A participao na OBMEP traz algum efeito para as escolas no que diz respeito ao seu desempenho mdio nas avaliaes educacionais? Utilizamos a estratgia de combinar regresso linear e ponderao pelo propensity score nas especificaes em nvel e em diferenas em diferenas do indicador de resultado. O estimador resultante classificado como duplamente robusto e apontou para um impacto positivo e estatisticamente significativo nas notas mdias de matemtica dos estudantes de 8 srie na Prova Brasil 2007. Como a maioria das escolas participou de pelo menos mais de uma edio da OBMEP, investigamos se os impactos so heterogneos por nmero de participaes. Os resultados mostram que o impacto maior para escolas que participaram mais de uma vez. Alm disso, realizamos estimativas considerando os percentis da distribuio das notas dos alunos e verificamos que o impacto significativo, no s para os alunos com melhor desempenho, como para os com menores notas, entretanto, o impacto relativamente maior para os primeiros. A seguir sero apresentadas a fonte de dados e a amostra considerada na anlise. Posteriormente so descritas as estratgias de identificao do impacto. Por fim sero apresentados os resultados encontrados e a anlise de retorno econmico considerando algumas hipteses sobre o futuro dos jovens participantes do programa. 2 Dados e amostra

Os potenciais participantes da OBMEP so os estudantes de 5a a 8a srie (6 ao 9 ano) do ensino fundamental (EF) e os do ensino mdio, da modalidade regular ou Educao de Jovens e Adultos (EJA), das escolas pblicas de todo o pas. Os alunos inscritos das diferentes fases da educao bsica so divididos em trs nveis: I- alunos matriculados nas 5 ou 6 sries EF (6 e 7 anos); II alunos matriculados na 7 ou 8 srie EF (8 e 9 anos); III alunos matriculados em qualquer ano do ensino mdio.

A Olimpada ocorre em duas fases. Na primeira, todas as escolas pblicas podem se inscrever voluntariamente e participar com seus alunos nos trs nveis, dependendo da fase de ensino oferecida. Nesse momento as escolas devem receber o Banco de Questes. As provas dessa fase so realizadas e corrigidas pelas prprias escolas, que devem encaminhar somente os 5% alunos melhores classificados nessa etapa para a 2 fase da Olimpada. No sero classificados alunos com nota 0 (zero) na 1 fase. A tabela a seguir traz o nmero de escolas e alunos inscritos na OBMEP por edio e nvel, na primeira fase. Tabela 2 Nmero de alunos e escolas inscritas na OBMEP por nvel e edio (1 fase)
nvel I alunos escolas 2005 2006 2007 2008 3.655.677 4.851.150 5.963.883 6.270.982 27.508 29.766 35.260 37.031 nvel II alunos escolas 3.077.481 4.026.207 4.917.276 5.246.995 27.383 29.132 34.360 36.349 nvel III alunos escolas 3.787.673 5.304.348 6.460.573 6.808.052 13.255 14.277 16.321 17.133

Fonte: elaborao prpria com dados da OBMEP

A maior parte das escolas participou de mais de uma edio da OBMEP. Considerando o nvel II, no qual alunos das 7 ou 8 srie EF (8 e 9 anos) regular e de jovens e adultos participam, entre todas as edies houve 43.573 escolas inscritas2, das quais 43% participaram das quatro edies e 66% participaram de pelo menos 3 edies. Ademais, considerando a OBMEP de 2007 - nvel II - a proporo de alunos participantes em relao s matrculas nas sries correspondentes bastante elevada. A mediana dessa proporo entre todas as escolas participantes de 94%, no primeiro quartil da distribuio, essa proporo de 75%. Com isso, observamos que as escolas tendem a inscrever grande parte dos alunos para a 1 fase da Olimpada. Para a anlise de impacto da OBMEP utilizamos como indicador de resultado os dados de desempenho da Prova Brasil 2007, avaliao padronizada realizada pelo Inep/MEC a cada dois anos (desde 2005) em todas as escolas pblicas urbanas do pas. Essa avaliao censitria, garantindo a representatividade das notas por escola. As sries avaliadas so as 4 e 8 sries (5 e 9 ano) do EF de escolas com pelo menos vinte alunos matriculados em cada srie. A Prova Brasil utiliza a mesma metodologia do SAEB, baseada na Teoria de Resposta ao Item (TRI), que permite a comparao das notas de lngua portuguesa e matemtica dos estudantes em diferentes sries e momentos do tempo. As caractersticas de infraestrutura e os indicadores educacionais das escolas utilizados como controles nas estimativas foram retirados do Censo Escolar 2006, alm de contar com informaes sobre os municpios relativas populao residente e renda per capita, retiradas do Censo Demogrfico (IBGE2000). Com o uso dessas bases de dados, a avaliao de impacto se restringiu s escolas urbanas com estudantes inscritos no nvel II da OBMEP, que participaram da Prova Brasil 2007 na 8 srie. Como no foi possvel identificar o aluno participante do Programa, e qual sua nota na Prova Brasil, utilizamos como varivel indicadora de resultado a nota mdia das escolas, ou seja, nossa unidade de observao a escola e no o aluno. importante destacar que a inscrio das escolas na OBMEP ocorre no incio do ano letivo, as provas da 1 fase so aplicadas no incio do segundo semestre (meados de agosto) e as da 2 fase no incio do ltimo
Como referncia, de acordo com o Censo Escolar 2006, existiam cerca de 170 mil escolas pblicas ativas no pas e 45% estavam localizadas em reas urbanas.
2

trimestre. J a Prova Brasil 2007 foi aplicada aos alunos em novembro desse ano. Dessa forma, a nota de 2007 j poderia ser influenciada pela Olimpada. 2.1 A amostra

Entre as 168.436 escolas pblicas ativas no Brasil (Censo Escolar 2006), 68.961 delas eram potenciais participantes da OBMEP no nvel II, ou seja, possuam matrculas nas 7 ou 8 sries, ou ofereciam Educao de Jovens e Adultos. Entretanto, parte delas (34.360) se inscreveu na Olimpada, e entre estas ltimas nem todas participaram da Prova Brasil. A tabela 3 apresenta a amostra das escolas do grupo de tratamento (participantes da OBMEP) . Das 34.360 escolas participantes do nvel II da Olimpada em 2007, 34.222 tinham informaes declaradas no Censo 2006 e 22.996 participaram da Prova Brasil. Tabela 3 Amostra de escolas tratadas
n escolas Inscritas OBMEP 2007 (nvel II) Filtros encontradas no Censo 2006 urbanas participantes da Prova Brasil 2007 % inscritos em relao s matrculas > 10% 34.360 34.222 25.841 22.996 22.703

Para nossa avaliao definimos uma proporo mnima de alunos inscritos na 1 fase da Olimpada relativamente ao nmero de matrculas regulares nas 7 e 8 sries das escolas, assim desconsideramos da anlise 293 escolas que apresentaram uma proporo menor que 10%3. Nossa anlise contou ento com 22.703 escolas no grupo de tratamento. A tabela a seguir apresenta a amostra de escolas de controle. Tabela 4 Amostra de escolas de controle
n escolas Potenciais participantes OBMEP (nvel II) Filtros no participantes OBMEP 2007 (nvel II) urbanas participantes Prova Brasil 2007 nunca participaram da OBMEP 68.961 35.263 14.571 4.052 1.756

Entre as mais de 68 mil escolas potenciais participantes da OBMEP, 35.263 no participaram de sua edio em 2007 e seriam candidatas ao grupo de controle. Entretanto, entre elas somente 4.052 participaram
Como j mencionado anteriormente, as escolas participantes tendem a inscrever na 1 fase todos os alunos da srie apta a concorrer na OBMEP. Por isso, ao retirar da amostra as escolas com percentual de participao na 1 fase menor que 10% em relao s matrculas, poucas escolas saem da amostra.
3

da Prova Brasil 2007. Essa no participao na Prova Brasil se deve ao fato de 59% das escolas no participantes da OBMEP 2007 serem rurais, e do restante, a maioria no apresentava mais de vinte alunos na 8 srie. O anexo traz a Tabela A com as estatsticas comparativas entre as escolas participantes e no participantes da OBMEP dessa amostra. Observamos que as escolas tratadas so maiores, com maior nmero de alunos e professores, e apresentam tambm caractersticas mdias dos alunos relativamente melhores, com maior percentual de alunos com pais que possuem o ensino superior completo, que frequentaram pr-escola, no trabalham fora de casa e no foram reprovados. Em suma, na maioria das variveis consideradas, as escolas participantes da Olimpada apresentam diferenas estatisticamente significantes comparativamente s escolas no participantes e demonstram um perfil mais vantajoso. Em relao s mdias de proficincia na Prova Brasil, nos dois anos da avaliao e nas duas disciplinas, as mdias so maiores no grupo de escolas inscritas na OBMEP. Comparar diretamente a nota do grupo de escolas tratadas com as no participantes, sem garantir que as escolas so semelhantes em relao a outras caractersticas, pode nos dar o sinal errado do efeito da OBMEP sobre o desempenho dos estudantes. A seguir ser apresentada a estratgia de identificao do impacto, pela qual atribumos pesos diferenciados s escolas do grupo de controle conforme suas semelhanas nas caractersticas observveis relativamente s escolas de tratamento, e posteriormente os resultados encontrados. 3 Metodologia da avaliao de impacto

Para inferir o impacto quantitativo da Olimpada nas notas mdias de matemtica das escolas que se inscreveram no programa precisamos saber o que teria acontecido com as notas das escolas que participaram caso elas no tivessem se inscrito na OBMEP. Essa questo traz o problema do contrafactual no observado, pois obviamente no observamos a nota de matemtica dos alunos participantes da OBMEP caso eles no tivessem participado. Para resolver essa questo precisamos dispor de um grupo de controle (escolas no participantes) que substitua o contrafactual, e que seja parecido com o grupo de escolas tratadas (participantes da OBMEP) para evitar o problema de vis de seleo. Escrito de outra forma, podemos definir Y0 como o resultado potencial da escola caso ela no estivesse se inscrito na Olimpada; Y1 como o resultado potencial da escola caso ela tivesse se inscrito; T = 1 quando a escola se inscreveu e T = 0 quando a escola no se inscreveu. Podemos observar Y1|T=1 e Y0|T=0, mas nunca observar Y1|T=0 e Y0|T=1. Nosso interesse conhecer a diferena entre a nota obtida pelas escolas que se inscreveram no programa e a nota caso elas no tivessem se inscrito. Podemos escrever isso como D = E [Y1 | T = 1] E [Y0 | T = 1] . O que de fato observamos G = E [Y1 | T = 1] E [Y0 | T = 0] , a

diferena entre esses termos nos d o vis de seleo B = G D = [Y0 | T = 1] E [Y0 | T = 0] . Esse vis surge se o grupo de comparao (controle) inadequado, como por exemplo quando as escolas que no se inscreveram no Programa forem muito diferentes das escolas que se inscreveram.

Como a inscrio na OBMEP realizada de forma voluntria pelas escolas, no se trata de um programa com tratamento aleatorizado ou resultante de um experimento natural, casos em que no haveria problema de vis de seleo. Diante disso, utilizamos um grupo de comparao com caractersticas semelhantes ao grupo de escolas tratadas trabalhando com a hiptese de seleo em observveis. Essa hiptese parece razovel j que
6

dispomos de diversas bases de dados a partir das quais possvel extrair um grande nmero de informaes relativas gesto, infraestrutura, corpo docente, discente, entre outras caractersticas de todas as escolas pblicas brasileiras participantes ou no da Olimpada. Lanando mo de mtodos economtricos adequados, esse rico conjunto de caractersticas deve ser utilizado na predio na probabilidade condicional de receber o tratamento para todas as escolas da amostra, de tal sorte que o ajuste nas diferenas entre os grupos de tratamento e controle nessas variveis nos possibilita encontrar um grupo de controle tal que resolva o potencial problema do vis de seleo. Supondo a matriz X como o conjunto de caractersticas observveis que determinam a participao no tratamento e seu resultado, as hipteses chaves por traz da anlise baseada em seleo em observveis para a eliminao do vis de seleo so: (a) (b) Y0 T | X , isto , independncia dos resultados potenciais em relao ao tratamento, dadas as caractersticas em observveis (hiptese de ignorabilidade do tratamento); Hiptese implcita de suporte comum 0 < Pr(T=1 | X) = p(X) < 1 para X onde suporte da distribuio de X. Isto garante comparabilidade entre os dois grupos T=1 e T=0, ou seja, no h valor de X para o qual se possa dizer com certeza a que grupo (T=1 ou T=0) ele pertence;

Essas duas hipteses so conhecidas como ignorabilidade forte. Rosenbaum e Rubin (1983) mostram que, dados, (a) e (b), tambm vale: (c) Y0 T | p(X) onde p(X) a probabilidade de ser tratado dado X ou propensity-score. Essa hiptese reduz a dimenso necessria para resolver o emparelhamento.

A hiptese de identificao depende, portanto, de no haver variveis no-observadas que afetem os resultados das escolas de forma diferenciada nos grupos de tratamento e controle. Atualmente, a literatura economtrica traz diversos mtodos baseados no propensity score para inferir causalidade entre o tratamento e resultado quando se trata de uma avaliao com contrafactual no observado. Um dos mais conhecidos o propensity score matching, em que as unidades tratadas so pareadas com as unidades de controles a partir de suas probabilidades estimadas, assumindo alguma hiptese sobre a forma funcional de como X afeta as probabilidades de tratamento e o resultado. O uso do propensity score tem a vantagem de reduzir a dimensionalidade das covariadas facilitando sua operacionalizao, entretanto, na literatura economtrica h crticas a esse mtodo. O principal motivo vem do fato da funo p(X) ser desconhecida, e ao ser estimada pode afetar a varincia do estimador do pareamento. Dessa forma, no possvel conhecer a distribuio assinttica do pareamento fazendo com que os erros-padro dos estimadores no sejam confiveis. Utilizamos ento o mtodo de regresso linear ponderada pelo inverso do propensity score estimado para encontrar a estimativa do efeito mdio do tratamento sobre os tratados (ATT). A ideia atribuir pesos diferenciados s escolas do grupo de controle de acordo com caractersticas e probabilidades de participao na OBMEP e contar com estimador de mnimos quadrados ordinrios. De acordo com a literatura economtrica, esse mtodo traz vantagens frente aos outros mtodos baseados no propensity score, principalmente em relao eficincia do estimador mesmo com a imposio de uma forma funcional para estimar p(X)4. A implementao desse mtodo de combinar regresso e propensity score estimado ocorre em dois ( X ) = pr (Ti = 1 X i = x ) a partir de um modelo de resposta passos. Em um primeiro estgio estimamos p binria supondo uma funo de distribuio logstica padro (logit). No segundo estgio utilizamos uma
4

Para maiores detalhes sobre as metodologias de impacto ver tambm Imbens e Wooldridge (2008).

regresso linear de Yi (nota de matemtica) em Ti e Xi ponderada pelo inverso das probabilidades de tratamento e no-tratamento, resultante do estimador de mnimos quadrados ponderados. A partir da encontramos o ATT efeito tratamento sobre os tratados. O ponderador utilizado :
wi = ( xi ) 1 p p 1 Ti para observaes no-tratadas; ( xi ) 1 p p 1 p (1)

wi =

Ti para as observaes tratadas p


n1

(2)

( X )T = 1 e n1 = nmero de unidades tratadas. onde p = n =1 p O estimador resultante pode ser definido como duplamente robusto de acordo com os estimadores desenvolvidos por Robins e Rotnitzky (1995)5. Ao explicar as vantagens do mtodo combinado de regresso e propensity score estimado, Imbens e Wooldridge (2008) fazem uma analogia com o problema de vis de varivel omitida. Suponha que o interesse seja estimar o coeficiente do tratamento em uma regresso linear de Yi em Ti , Xi e uma constante. Ao realizar uma regresso de Yi somente em Ti e na constante, produzimos um vis equivalente ao produto do coeficiente de Xi da regresso longa, e o coeficiente de Xi em uma regresso de Ti na constante e em Xi. O ponderador pode ser interpretado como o fator de remoo da correlao entre Ti e Xi, e a regresso linear como o fator de remoo do efeito direto de Xi. Como resultado, esse estimador leva a robustez adicional no verificada nos outros mtodos baseados no propensity score estimado, por remover a correlao entre as covariadas omitidas e por reduzir a correlao entre as variveis omitidas e includas. Para a escolha do conjunto de variveis X includas para a estimativa do logit e da regresso de Yi em Ti e Xi ponderada, utilizamos o mtodo de estratificao pela probabilidade estimada proposto por Dehejia e Wahba (1999), em que dentro de cada estrato verificamos o balanceamento de cada componente de X entre o ( X ) . Dividimos a grupo de tratamento e controle. Esse mtodo garante maior eficincia na estimativa do p ( X ) estimado e testamos o balanceamento de cada amostra em quatro estratos de acordo com o p componente de X. Para os casos de no balanceamento, fizemos iteraes ou alteramos a forma funcional do modelo at que todas as variveis includas estivessem balanceadas.

A ltima coluna da Tabela A do anexo apresenta as estatsticas t do teste de balanceamento para todas as variveis includas na estimao. Observamos que no h diferenas significativas nas variveis entre os ( X ) , comprovando que a grupos de tratamento e controle considerando amostras divididas por estratos de p distribuio das variveis includas est equilibrada entre os dois grupos. As covariadas includas no modelo se referem s condies de infraestrutura e de atendimento escolar (mdia de alunos por turma, mdia de hora-aula por dia, tamanho da escola), caractersticas dos municpios em que esto inseridas e informaes sobre os alunos. Essas ltimas foram retiradas do questionrio socioeconmico da Prova Brasil e trazem informaes importantes do perfil de alunos atendidos pelas escolas tratadas e no tratadas. Inclumos tambm dummies para identificar as diferentes regies do Brasil que as escolas esto localizadas. Inclumos a nota de lngua portuguesa de 2005 e 2007 na Prova Brasil, pois a nota bruta da escola nas avaliaes pode trazer informaes relevantes que no capturadas pelos outros insumos escolares consideradas no modelo, como qualidade ou gesto da escola. Estes poderiam influenciar a probabilidade de

Ver tambm Scharfstein, Rotnitzky e Robins (1999).

participao da escola na Olimpada, assim como poderiam estar correlacionados com o resultado da avaliao em matemtica6. No primeiro estgio do mtodo, o poder explicativo do logit com a incluso de todas as covariadas mencionadas foi de 14,6%. Quase todas elas se mostraram significativas a 10% para explicar a participao na OBMEP, com exceo das seguintes: problemas na escola com rotatividade dos professores; problemas com interrupo das atividades escolares; se a escola aplica prova para seleo de alunos; e trs variveis sobre o perfil dos alunos (raa, sexo e frequentou educao infantil)7. Na prxima seo apresentamos os resultados da avaliao de impacto.

Resultados da avaliao de impacto

Os resultados apresentados aqui se referem ao impacto da participao das escolas na OBMEP 2007 no desempenho mdio em matemtica dos estudantes da 8 srie na Prova Brasil de 2007. Conforme mencionado na seo metodolgica o mtodo de combinar regresso e ponderao pelo propensity score vlido para eliminar o vis de seleo sob a hiptese de seleo em observveis. Entretanto, dado a disponibilidade das notas das escolas na Prova Brasil de 2005, realizamos adicionalmente a estimativa por diferenas em diferenas. Esse mtodo pode ser utilizado nos casos em que temos indicadores em dois momentos do tempo, antes e depois do tratamento, e traz a vantagem de possibilitar o controle adicional por caractersticas no observveis que no se alteram ao longo do tempo. Assim, a estimativa do efeito mdio do tratamento nas escolas tratadas (ATT) seria ainda mais confivel. Mas, no caso da OBMEP, ao compararmos as notas de 2005 e 2007 entre as escolas tratadas e de controle, o impacto verificado poderia estar subestimado, pois temos escolas que participaram desde 2005 e as notas desse ano poderiam estar influenciadas por essa participao. Portanto, as estimativas por esse mtodo controlam os potenciais problemas de vis de forma mais adequada, mas podem subestimar o impacto encontrado. Nas estimativas por diferenas em diferenas, consideramos o mesmo conjunto de variveis X para ( X ) e para a regresso ponderada. Entretanto, inclumos a nota de matemtica de 2005 na Prova estimar p Brasil (nota pr-tratamento) como varivel explicativa, o que tambm podemos chamar de condio inicial das escolas. Essa covariada importante nas estimativas de impacto da OBMEP, tanto para explicar a participao das escolas no programa, como para explicar a variao absoluta entre as notas de dois anos. Alm disso, a incluso da condio inicial serve para controlar o processo de reverso s mdias. Existem estudos sobre avaliaes educacionais e seus problemas de medida que argumentam que as turmas que participam das avaliaes esto sujeitas a erros sistemticos que atingem todos os alunos, fazendo com que a nota mdia observada seja viesada para cima ou para baixo8. Ainda no modelo de diferenas em diferenas, ao invs de utilizarmos as caractersticas dos alunos em nvel, consideramos suas variaes entre 2005 e 2007, para capturar alteraes no perfil dos alunos que
Dessa forma, restringimos a amostra e os resultados encontrados s escolas participantes da Prova Brasil 2005 e 2007. Realizamos outro teste para saber se as variveis includas ajustam bem as probabilidades de participao no programa entre as escolas tratadas e no tratadas. Para isso realizamos as estimativas tambm por propensity score matching (vizinho mais prximo) ( X ) antes e depois do pareamento. As incluindo o mesmo conjunto de covariadas e comparamos as distribuies de p distribuies aps o pareamento ficaram muito semelhantes demonstrando que as variveis includas garantem um pareamento de boa qualidade. O grfico A do apndice traz a comparao das distribuies densidade kernel antes e depois do pareamento para as escolas tratadas e de cotrole. 8 Consultar Mizala, Romaguera e Urquiola (2007), para um estudo para as escolas do Chile, e Franco e Menezes-Filho (2008), para o Brasil.
7 6

pudessem estar relacionadas ao desempenho, mas no com o tratamento. A tabela a seguir traz os resultados do impacto mdio por essas duas metodologias9.

Tabela 3 Estimativas do ATT: Impacto da OBMEP 2007 nas notas de matemtica da 8 srie na Prova Brasil10
Impacto mdio na nota n escolas de matemtica coef. t tratadas controles 7,44*** 10,89 22.703 1.756 2,14*** 4,73 1,99*** 5,03

diferenas de mdias sem controles ATT ATT (dif-em-dif)*

*** estimativas significativas a 1%. * Para essa estimativa inclumos como varivel independente a condio inicial medida pela nota em 2005.

A diferena entre as notas das escolas inscritas na OBMEP na edio de 2007, sem qualquer controle das caractersticas, de 7,44 pontos. J a partir das estimativas de MQO ponderadas pelo propensity score o ATT estimado de 2,14 pontos e pelo modelo de diferenas em diferenas o ATT de 1,99, os dois estatisticamente significativos a 1%. Esse resultado demonstra que a OBMEP promove impacto positivo e significativo nas notas mdias de matemtica da 8 srie com valor pontual de 2,14 pontos a 1,99. A diferena entre as duas estimativas pequena, dando maior confiabilidade aos sinais e significncia do impacto estimado. As Tabelas B e C do anexo apresentam os resultados do segundo estgio, regresso por mnimos quadrados ponderados conforme equao (1) e (2), para as notas em nvel e em diferenas. Realizamos um teste de robustez em que a proposta verificar se, aplicando a mesma metodologia, estimaramos impacto do programa para uma populao que no foi exposta diretamente ao tratamento, embora ela esteja relacionada a um grupo que o recebeu. Para isso utilizamos as notas de matemtica dos alunos de 4 srie das escolas que participaram da OBMEP em 2007, pois alunos no foram diretamente expostos ao tratamento, j que a OBMEP oferecida apenas para os alunos matriculados a partir da 5 srie (6 ano) do ensino fundamental. A rigor, a expectativa de encontrar nenhum impacto. Se algum efeito fosse encontrado, possivelmente alguma varivel no observada e/ou no controlada nas estimativas da avaliao realizada anteriormente influenciou (viesou) os resultados. Fizemos estimativas tanto pelo mtodo de combinar regresso e propensity score, como por pareamento (vizinho mais prximo), para as especificaes em nvel e em diferenas em diferenas. De fato, no encontramos impacto estatisticamente significativo (considerando intervalo de confiana de 90%) em nenhuma delas, validando a metodologia e os resultados encontrados para a 8 srie. O resultado da Tabela 3 o impacto mdio da participao na OBMEP 2007 independente do nmero de participaes das escolas nas outras edies. Sabemos que a maior parte das escolas que participaram da OBMEP em 2007 tambm participaram em pelo menos mais uma edio. A tabela a seguir mostra a distribuio das escolas da amostra por nmero de participaes na OBMEP desde 2005.

Todas as variveis de controle utilizadas na estimativa esto apresentadas na tabela A do Anexo, com exceo s dummies de regio. 10 Realizamos as estimativas tambm pelo mtodo de propensity score matching. Os resultados seguem o mesmo sinal e significncia dos apresentados aqui, mas diferem em magnitude do impacto.

10

Tabela 4 - Escolas da amostra por nmero de participaes na OBMEP


participaes uma vez duas vezes trs vezes Total n 1.960 5.104 15.639 22.703 perc. 9% 22% 69% 100%

Com isso, tambm realizamos estimativas com o intuito de diferenciar o impacto conforme o nmero de participaes entre as trs edies da OBMEP, de 2005 a 2007. Para isso construmos trs amostras: i) a primeira considera como tratadas as escolas que participaram somente em 2007; ii) a segunda considera somente as escolas que participaram duas vezes da Olimpada, em 2007 e 2006, ou 2007 e 2005; iii) a terceira considera tratadas somente as escolas que participaram nas trs edies. O grupo de controle composto sempre pelas mesmas escolas, as que nunca participaram da Olimpada. Aplicamos o mesmo mtodo e conjunto de variveis explicitado anteriormente, tanto nas especificaes em nvel como em diferenas em diferenas. A Tabela a seguir resume os resultados.

Tabela 5 Estimativas do ATT: Impacto da OBMEP 2007 nas notas de matemtica da 8 srie na Prova Brasil, por nmero de participaes
Diferenas de mdias Impacto nota 2007 observadas (em nvel) Uma vez Duas vezes Trs vezes Diferena 1,83 3,92 8,94 t 2,07 5,23 12,93 ATT 0,76 1,51 2,38 t 1,92 3,82 4,70 Impacto dif-em-dif* ATT 0,65 1,51 2,19 t 1,65 4,10 5,02 n escolas tratadas controles 1.960 1.756 5.104 1.756 15.639 1.756

* para essa estimativa inclumos como varivel independente a condio inicial medida pela nota em 2005.

Todas as estimativas do ATT apontam para resultados de impacto estatisticamente significativos e positivos, e sinalizam que quanto maior o nmero de participaes nas edies da Olimpada, maior o impacto na nota. Considerando a especificao em nvel, escolas que participaram somente em 2007 obtiveram uma mdia de 0,76 pontos superior comparativamente ao grupo de controle, escolas que participaram duas vezes (2007 e alguma outra edio anterior) tiveram impacto de 1,51 pontos, e por fim escolas que participaram de todas as edies at 2007 apresentaram elevao na nota de 2,3811. Corroborando os resultados significativos da OBMEP, as estimativas por diferenas em diferenas, mtodo que possibilita o controle das caractersticas no observveis constantes entre 2005 e 2007, tambm se mostraram significativas e positivas para todas as amostras. Contudo, os valores pontuais do ATT so pouco menores comparativamente aos resultados para a nota em nvel (2007). Uma explicao para isso que, conforme j mencionado, embora as estimativas de

11

Lembrando que a participao das escolas em 2008 no foi avaliada devido a no disponibilidade de resultados na Prova Brasil, que ter sua prxima edio realizada em 2009.

11

diferenas em diferenas possam dar melhor tratamento ao vis de seleo, no caso da OBMEP, os resultados do ATT podem estar subestimados12. importante reconhecer a possvel existncia de vis de caractersticas no observveis no impacto estimado. Note que as escolas que participaram somente uma vez da Olimpada, em 2007, obviamente estariam livres da contaminao das suas notas em 2005. No entanto, ao compararmos as estimativas baseadas na hiptese de seleo em observveis com as de diferenas em diferenas, temos uma pequena queda no valor pontual do impacto, mas ainda significativo, indicando que o controle das caractersticas no observveis importante para encontrar o impacto mais consistente. A explicao para a existncia desse vis de no observadas poderia estar relacionada com caractersticas da gesto escolar que no podem ser mensuradas, como habilidades ou envolvimento do diretor da escola, assiduidade dos professores, ou qualquer outra informao no includa que pudesse influenciar a nota dos alunos de forma diferenciada entre os grupos de tratamento e controle, mas que no se alterou entre os anos de 2005 e 2007. J para as outras estimativas de diferenas em diferenas apresentadas aqui, essa anlise no completamente verdadeira, pois a reduo nos valores pode ter ocorrido devido contaminao das notas de 2005, caso a escola tivesse participado dessa edio. Fizemos ainda um outro exerccio acompanhando as mesmas escolas nos trs anos. A ideia foi comparar escolas que no participaram em 2005, mas passaram a participar em 2006 e 2007, com escolas que no participaram em 2005 e continuaram nessa mesma situao nas outras edies. A diferena para as estimativas da amostra (ii) ter no grupo de tratamento somente escolas que participaram duas vezes da Olimpada, mas de forma consecutiva, o que representa 60% das escolas da amostra (ii). Os resultados seguem a mesma direo e significncia (a 1%) da estimativa para a amostra (ii). Os valores pontuais so bastante semelhantes, com aumento de 1,35 (0,42) da nota em 2007 na especificao em nvel, e 1,25 (0,35) por diferenas em diferenas. A vantagem desse exerccio a possibilidade de inferirmos essa ltima estimativa, controlada pelas no observveis, com as notas de 2005 livres da contaminao pela participao na Olimpada de 2005.

4.1

Estimativas de impacto por percentis da distribuio das notas dos alunos

Um dos objetivos da OBMEP identificar jovens talentos com o propsito de dar oportunidade para esses jovens, que muitas vezes se encontram em situao socioeconmica adversa. Sabemos tambm que apenas 5% dos alunos com melhores notas na 1 fase seguem para a prxima fase e so os potenciais vencedores da Olimpada. Nesse sentido, realizamos estimativas de impacto em separado, considerando as notas dos alunos nos percentis como varivel de resultado. Com isso possvel conhecer se h diferena de impacto entre os alunos com maiores e menores notas na Prova Brasil. A partir da distribuio de notas de matemtica de todos os alunos da 8 srie, calculamos para cada escola as notas nos decis, assim como nos 5 e 95 percentis e as utilizamos como resultados de interesse nas estimativas de impacto. Para cada percentil aplicamos a mesma metodologia e o mesmo conjunto de caractersticas observveis descritas anteriormente, considerando todas as escolas participantes de 2007, independente do nmero de participaes. O grfico a seguir traz os resultados.

12

O resultado pode ser subestimado pois escolas que participaram em 2005 podem ter suas notas de 2005 na Prova Brasil j influenciadas, e ao estimar o impacto por diferenas em diferenas (nota2007 nota2005), parte desse impacto pode no ser mensurado adequadamente.

12

Grfico 1 Estimativas de impacto da OBMEP por percentis de notas de matemtica


12,0

pontos de matemtica

10,0 8,0 7,5 6,0 5,5 4,0 2,0 0,0 1,0 1,2 1,7 1,8 1,4 4,5 3,6 2,0 2,6 2,9 3,0 6,1 6,4 8,3 9,0 9,6

10,4

11,2

3,2

2,8

p5

p10

p20

p30

p40

p50 percentis

p60

p70

p80

p90

p95

ATT estimado

diferena notas sem controle

Todas as estimativas so significativas a 5%. Utilizamos o estimador duplamente robusto nas estimativas, considerando a especificao em nvel das notas nos percentis.

A linha verde (cheia) do grfico mostra as estimativas do ATT nos percentis a partir das estimativas de MQO ponderado pelo propensity score estimado. Todas se mostraram significativas e positivas para todos os nveis, apontando que a OBMEP melhora as notas de todos os alunos. Porm o efeito maior para os percentis mais elevados, com impactos pontuais que variam de 1 a 3 pontos na nota de matemtica. Ressaltamos que as curvas de impacto por percentis apresentam inclinaes diferentes quando comparamos as diferenas observadas de notas e o ATT estimado. A diferena de mdia simples entre as notas das escolas tratamento e controle aumenta para os melhores alunos de forma bem mais acentuada do que a diferena de impacto da OBMEP.

Tabela 6 Percentis das notas de matemtica: mdia entre as escolas tratadas e controle, ATT e impacto relativo
Nota das Nota das escolas escolas no participantes participantes 178,52 190,66 206,92 219,11 229,79 239,90 250,14 261,28 274,44 292,53 306,94 174,95 186,15 201,45 213,04 223,37 232,44 241,80 252,26 264,88 282,09 295,71 ATT estimado 0,97 1,24 1,67 1,77 1,40 2,05 2,59 2,91 3,01 3,17 2,84 ATT/nota mdia das escolas no tratadas (%) 0,56 0,67 0,83 0,83 0,63 0,88 1,07 1,15 1,14 1,13 0,96

Percentis

p5 p10 p20 p30 p40 p50 p60 p70 p80 p90 p95

A tabela 6 mostra as mdias observadas nas escolas de tratamento e controle em cada percentil, o ATT estimado e a razo entre este ltimo e nota observada nas escolas de controle. Observamos ento que o 13

impacto relativo tambm maior para os alunos com desempenho mais elevado na Prova Brasil. Esse resultado interessante, demonstrando que a OBMEP melhora o desempenho mdio das escolas nas avaliaes, e mais do que isso, esse ganho ocorre para todos os alunos e no somente para os melhores.

Anlise de Retorno Econmico

A partir dos impactos estimados da OBMEP nas notas de matemtica na Prova Brasil dos alunos da 8 srie realizamos uma anlise comparando os custos e benefcios do programa ao longo da vida dos jovens beneficirios. A ideia aqui traduzir o impacto encontrado na seo anterior em benefcios monetrios ao longo da vida dos jovens. Assim, lanamos mo de algumas hipteses de como isso pode afetar os rendimentos no mercado de trabalho e construmos cenrios para comparar com os investimentos do Programa. Sabemos que na 1 fase da OBMEP 2007 houve 4,9 milhes de inscritos no nvel 2, sendo que 9% deles participaram somente em 2007, 23% em mais uma edio alm de 2007 e 69% participaram das trs edies at 2007. Todos esses alunos poderiam se beneficiar em mdia com a OBMEP. Para a anlise do fluxo de benefcios utilizamos as seguintes hipteses: (i) o impacto positivo estimado na nota mdia dos alunos da 8a srie vale em valores absolutos para todos os alunos inscritos na 1 fase da OBMEP 2007. Como conhecemos o impacto em separado de acordo com o nmero de participaes, fizemos trs clculos de retorno. (ii) o retorno monetrio esperado da participao dos estudantes na OBMEP foi calculado a partir dessa melhora no desempenho, por nmero de participaes. Um estudo com dados em painel para os EUA mostra que existe esta relao (MURNANE et alli, 2000). No h dados em painel disponveis no Brasil para acompanhamento dos mesmos indivduos, mas o estudo de Curi e Menezes-Filho (2007) avalia se a qualidade do aprendizado medida em termos de proficincia em matemtica obtida no SAEB no 3 ano do ensino mdio de uma determinada gerao afeta os salrios desta coorte cinco anos mais tarde. Os autores mostram que o desempenho nas avaliaes educacionais impacta os salrios futuros com elasticidade estimada de 0,3. Dessa forma, a melhora no desempenho dos jovens na 8 srie afetar os salrios futuros dos jovens no mercado de trabalho com elasticidade estimada de 0,3. (iii) realizamos estimativas de impacto tambm para as taxas de aprovao e abandono nas sries do ensino fundamental e mdio para verificar possveis efeitos sobre o fluxo e anos de escolaridade dos estudantes tratados, mas no encontramos resultados significativos. (iv) admitimos que os retornos da educao no salrio so constantes no tempo. Com dados da Pnad 2007, projetamos qual seria o salrio anual correspondente de um jovem com 18 anos de idade e 8 anos de estudo (entrada no mercado de trabalho) at os seus 60 anos de idade. A partir do impacto estimado na nota de matemtica dos alunos por nmero de participaes na OBMEP e da elasticidade desempenho-renda, calculamos as variaes esperadas nos salrios anuais. Para uma participao (variao percentual de 0,32% na mdia dos tratados) esperamos aumento nos salrios anuais futuros de 0,10%. Com duas participaes, essa variao esperada de 0,19% e com trs de 0,30%. Em relao aos custos da OBMEP, consideramos o valor de R$2,00 por aluno por edio. Alm disso, optamos por fazer um segundo cenrio baseado nos custos da Olimpada de Lngua Portuguesa Escrevendo o Futuro, concurso semelhante OBMEP realizado pela Fundao Ita Social e Cenpec, como proxy de

14

incluso de custos de oportunidade. Neste caso, o custo foi de R$7,60 por aluno/ano. Consideramos os custos proporcionais ao nmero de participaes das escolas na OBMEP. A tabela a seguir apresenta o retorno econmico do programa diferenciado por nmero de participaes considerando dois cenrios de custos.

Tabela 7 Retorno Econmico da OBMEP


uma vez VPL Total Cenrio 1 VPL/aluno TIR ao ano VPL Total Cenrio 2 VPL/aluno TIR ao ano R$ 28,3 mi R$ 67,80 39% R$ 26 mi R$ 62,20 22% duas vezes R$ 136 mi R$ 133,70 42% R$ 124,6 mi R$ 122,50 23% trs vezes R$ 736,9 mi R$ 211,65 45% R$ 678,4 mi R$ 194,85 25%

Consideramos uma taxa de desconto de 5% ao ano para o clculo da TIR.

Nos dois cenrios de custos, o retorno do programa positivo e elevado. Quanto maior o nmero de participaes, maior o retorno, chegando ao valor presente lquido por aluno de R$211,65, VPL total de R$ 736 milhes e a taxa interna de retorno de 45% ao ano no cenrio 1. No cenrio 2, mesmo com custos de R$7,60 por aluno, a TIR de 25%. Note que o valor incremental de cada participao por aluno relativamente constante, R$67,8 o ganho a valores presentes de uma participao, R$65,9 o ganho adicional da segunda e R$77,9 o ganho adicional da terceira (cenrio 1). Calculando o valor mdio do retorno ponderado pelo percentual de escolas participantes, chegamos a um VPL por aluno de R$181,70 e uma TIR de 45% ao ano. O VPL total, ou seja, a soma dos ganhos de todos os jovens participantes R$901 milhes. Isso sinaliza que a Olimpada parece um bom investimento em termos de poltica pblica, os custos so relativamente baixos e o nmero de beneficirios muito elevado. Portanto, de acordo com essa avaliao de impacto, a OBMEP influencia a qualidade da educao pblica, aumentando a nota mdia de matemtica das escolas participantes nas avaliaes educacionais. Esse resultado ainda mais pronunciado conforme o nmero de participaes e para os alunos com melhor desempenho escolar. A partir do clculo do retorno econmico, conclumos que a OBMEP apresenta uma taxa de retorno elevada e gera benefcios salariais futuros aos jovens participantes, sem contar as externalidades positivas para a sociedade e para o pas, como reduo da criminalidade, aumento do bemestar social, entre outros.

Concluso

Realizamos a avaliao econmica da Olimpada Brasileira de Matemtica das Escolas Pblicas, programa promovido desde 2005 pelo IMPA em parceria com o Ministrio da Educao e com o Ministrio da Cincia e Tecnologia. Um dos objetivos do programa incentivar o estudo de matemtica nas escolas pblicas e melhorar a qualidade da educao pblica. A OBMEP recebe, a cada ano, um nmero maior de inscries de escolas e alunos matriculados nos anos finais do ensino fundamental. Em 2009 teve mais de 19 milhes de inscries de alunos, alocados em 15

mais de 40 mil escolas e atualmente considerada como o maior concurso do pas. Frente aos seus objetivos e seu expressivo escopo, avaliamos o impacto da participao das escolas na OBMEP de 2007 nas notas mdias de matemtica na Prova Brasil 2007 (Inep/MEC) para a 8 srie do ensino fundamental. Utilizamos o mtodo de regresso linear com erros-padro robustos ponderada pelo inverso do propensity score estimado. O estimador resultante pertence classe dos estimadores duplamente robustos por ser assintoticamente mais eficiente que os outros mtodos baseados na probabilidade estimada. Demonstramos que a OBMEP tem efeito positivo e estatisticamente significativo de 2,14 pontos nas notas mdias de matemtica das escolas na Prova Brasil (2007) na 8 srie do ensino fundamental. Esse impacto crescente conforme o maior nmero de participaes das escolas nas edies anuais da OBMEP, e maior nos percentis mais elevados das distribuies de notas dos alunos. A anlise de retorno econmico trouxe resultados positivos, nos levando a concluir que a realizao da OBMEP proporciona benefcios para a qualidade da educao pblica do pas, com impacto direto nas avaliaes educacionais e ganhos futuros em termos de rendimento no mercado de trabalho dos participantes.

16

Referncias Bibliogrficas
Dehejia, R. e S. Wahba. Causal effects in nonexperimental studies: reevaluating the evaluation of training programs. Journal of the American Statistical Association, 94, pg. 1053-1062, 1999. Franco, A. M. P.; Menezes-Filho, N. A. Uma anlise de rankings de escolas brasileiras com dados do SAEB. Artigo apresentado no XXXVI Encontro Nacional de Economia, Salvador (BA), dez. 2008. Heckman, J., Navarro-Lozano. S. Using matching, instrumental variables and control functions to estimate economic choice models NBER Working Paper 9497, 2003. Holland, P. Statistics and Causal Inference (with discussion). Journal of the American Statistical Association, 81, 945-970, 1986. IBGE Pesquisa Nacional por Amostra de Domiclio, 2007. IBGE Censo Demogrfico, 2000. Inep/MEC Microdados da Prova Brasil 2005 e 2007 e do Censo Escolar 2006. Imbens, G. M. e Wooldridge, J. M. Recent Developments in the econometrics of program evaluation, NBER working paper series, wp 14251, Cambridge, 2008. IMPA Regulamento da OBMEP, disponvel em www.obmep.org.br. Mizala, A.; Romaguera, P.; Urquiola, M. Socioeconomic status or noise? Tradeoffs in the generation of school quality information. Journal of Development Economics, vol. 84, pg 61-75, set. 2007. Murnane, R. J.; Willett, J. B.; Duhaldeborde, Y.; Tyler, J. H. How important are the cognitive skills of teenagers in predicting subsequent earnings? Journal of Policy Analysis and Management, vol. 19, n. 4, pg. 547-568, 2000. Robins, J. M. e Rotnitzky, A. Semiparametric Efficiency in Multivariate Regression Modelos with Missing data, Journal of the American Statistical Association, 90, 106-121, 2005.

17

APNDICE Tabela A - Perfil das escolas participantes e no participantes da OBMEP


Teste de Diferenas de mdias Participantes 1. Informaes da Prova Brasil* nota_8a_MAT 05 nota_8a_MAT 07 nota_8a_LP 05 nota_8a_LP 07 1.1 Questionrios dos Diretores % diretores com ps-graduao completa % diretor com 11 a 15 anos na direo da escola % diretor com mais de 15 anos na direo da escola % diretores com 30 a 39 anos de idade % diretores passaram por seleo e eleio % escolas tm apoio finan. Gov. estadual % escolas tm prova para seleo alunos % escolas com rotatividade do corpo docente % escolas com interrupo das atividades escolares 1.2 Questionrio dos alunos (8a srie) % alunos iniciaram os estudos na pr-escola % alunos homens % com pais que comparecem reunio % alunos com pais que completaram ES nmero mdio de automveis que possui % alunos brancos mdia matrculas na 8a srie % escolas municipais 2. Censo Escolar 2006* n mdio de prof. no EF % escolas com acesso internet % escolas que uso dos comp. pelos alunos EFII % prof. com ensino superior % escolas com sistema ciclos mdia alunos por turma na 8a srie mdia de hora aula na 8a srie 3. Censo Demogrfico 2000** Populao mdia nos municpios Mdia de renda per capita nos municpios (R$) No estat. t antes do estat. t aps o participantes balanceamento balanceamento***

239,7 239,8 224,4 227,8 71,2 4,7 3,2 24,1 17,5 68,0 0,8 38,7 19,0 81,7 45,7 91,6 7,4 1,7 35,7 92,7 35,0 28,2 57,0 39,0 88,3 36,7 32,3 4,4 635.183 263,4

233,1 231,7 220,8 222,4 62,5 6,9 4,1 22,0 13,4 58,1 1,0 32,9 20,8 78,1 46,0 89,1 5,2 1,7 34,2 63,2 44,6 26,0 44,5 25,5 84,6 32,2 30,2 4,3 1.414.768 311,8

-12,15 -17,25 -7,35 -12,68 -7,53 4,00 2,07 -1,97 -4,20 -7,44 1,12 -4,67 1,81 -10,02 0,86 -13,63 -12,71 7,94 -2,96 -18,09 8,16 -6,40 -10,25 -11,21 -6,73 -3,74 -9,45 -10,92 15,57 12,31

1,23 0,36 -0,53 -1,12 0,35 -0,63 0,35 0,35 0,17 -1,06 0,44 -0,33 0,85 -1,88 -0,37 1,18 -0,21 -1,64 -1,21 0,01 1,17 0,79 -1,69 1,76 -0,28 0,19 -1,26 -1,73

Fonte: *Inep/MEC **IBGE. *** Para o teste de balanceamento, dividimos a amostra em quatro estratos do pscore. Essas so as estatsticas para o primeiro quartil. Considerando os outros quartis, o resultado do teste segue o mesmo padro.

18

Tabela B Regresso por MQO ponderada pelo propensity score (duplamente robusto)
Y = nota de matemtica na 8a srie participou_OBMEP 2007 (ATT) dummy_centro-oeste dummy_sudeste dummy_sul nota_Prova Brasil05_PORT8a nota_Prova Brasil07_PORT8a log_matrculas 8a srie escola_municipal n professores no EF escola tem acesso internet uso_computadores pelos alunos escola adota sistema de ciclos ciclo*escola municipal (iterao) prop. Professores com ensino superior (ao quadrado) mdia alunos/turma 8a srie mdia hora/aula/dia log_populao municpio log_renda per capita municipal % diretores com ps-grad. % escolas c/ rotatividade do corpo docente % escolas com interrupo das atividades escolares idade_diretor (entre 30 e 39 anos de idade) tempo de direo na escola (mais de 10 anos) diretor assumiu por seleo e eleio escola tem prova seleo de alunos escola tem financiamento governo estadual % alunos brancos % pais comparecem reunio na escola % alunos tem carro % alunos que fizeram pr-escola % alunos homens % alunos com pais possuem ensino superior completo constante coeficiente 2,14 0,24 2,33 0,57 0,06 0,86 -0,28 -0,04 0,03 0,18 -0,44 0,51 -0,50 0,77 0,01 -1,39 -1,07 0,24 0,46 0,41 -0,83 0,26 -1,65 -0,38 0,37 -0,25 4,95 0,83 -8,61 -3,72 13,14 7,48 50,53 erro padro robusto 0,45 0,89 0,91 1,12 0,02 0,03 0,40 0,54 0,02 0,43 0,46 0,66 0,76 0,78 0,03 0,47 0,22 0,71 0,47 0,45 0,38 0,50 0,61 0,68 1,64 0,38 2,09 2,64 2,19 2,67 2,19 3,56 6,71 t 4,73 0,27 2,56 0,51 3,41 33,31 -0,70 -0,08 1,78 0,42 -0,95 0,77 -0,66 0,99 0,49 -2,97 -4,82 0,34 0,96 0,92 -2,18 0,52 -2,71 -0,56 0,22 -0,66 2,37 0,32 -3,92 -1,40 6,00 2,10 7,53 p-valor 0,00 0,79 0,01 0,61 0,00 0,00 0,49 0,94 0,08 0,67 0,34 0,44 0,51 0,32 0,63 0,00 0,00 0,73 0,34 0,36 0,03 0,60 0,01 0,58 0,82 0,51 0,02 0,75 0,00 0,16 0,00 0,04 0,00

R2 = 0,86 N observaes: 13.217

19

Tabela C Dif-emDif: Regresso por MQO ponderada pelo propensity score (duplamente robusto)
Dif_em_Dif (Y2007 - Y2005) participou_OBMEP 2007 dummy_centro-oeste dummy_sudeste dummy_sul nota_Prova Brasil05_MAT8a nota_Prova Brasil07_PORT8a log_matrculas 8a srie escola_municipal n professores no EF escola tem acesso internet uso_computadores pelos alunos escola adota sistema de ciclos ciclo*escola municipal (iterao) prop. Professores com ensino superior (ao quadrado) mdia alunos/turma 8a srie mdia hora/aula/dia log_populao municpio log_renda per capita municipal % diretores com ps-grad. % escolas c/ rotatividade do corpo docente % escolas com interrupo das atividades escolares idade_diretor (entre 30 e 39 anos de idade) tempo de direo na escola (mais de 10 anos) diretor assumiu por seleo e eleio escola tem prova seleo de alunos escola tem financiamento governo estadual var. no % alunos brancos var. no % alunos homens var. no % alunos que moram com os pais var. no % alunos que fizeram pr-escola var. no % alunos que trabalham var. no % alunos que tem mquina de lavar var. no % alunos com pais possuem ensino superior completo var. no % alunos que no respoderam escolaridade mes var. no % alunos com acesso internet em casa constante coeficiente 1,99 1,23 3,12 3,66 -0,83 0,81 0,14 0,01 0,01 0,39 -0,31 1,37 -0,74 0,56 0,02 -1,16 -1,12 0,70 0,20 0,39 -0,93 0,02 -1,51 -0,84 0,68 -0,26 1,76 8,64 2,22 -0,25 -0,65 -3,36 5,44 1,61 0,76 20,28 erro padro robusto 0,39 0,83 1,01 1,08 0,02 0,03 0,36 0,51 0,02 0,39 0,39 0,59 0,77 0,73 0,03 0,39 0,15 0,76 0,46 0,37 0,39 0,41 0,57 0,58 1,64 0,40 1,56 1,85 1,38 2,51 1,65 2,00 2,92 1,92 2,51 3,63 t 5,03 1,48 3,08 3,40 -38,71 31,14 0,39 0,02 0,64 0,99 -0,79 2,32 -0,96 0,76 0,68 -2,97 -7,31 0,92 0,44 1,06 -2,41 0,04 -2,64 -1,45 0,41 -0,65 1,13 4,66 1,61 -0,10 -0,39 -1,67 1,86 0,83 0,30 5,58 p-valor 0,00 0,14 0,00 0,00 0,00 0,00 0,70 0,98 0,52 0,32 0,43 0,02 0,34 0,45 0,50 0,00 0,00 0,36 0,66 0,29 0,02 0,97 0,01 0,15 0,68 0,52 0,26 0,00 0,11 0,92 0,70 0,09 0,06 0,40 0,76 0,00

R2 = 0,7103 N observaes: 13.217 20

Grfico A Qualidade do pareamento (vizinho mais prximo): densidade kernel das probabilidades de tratamento antes e depois do pareamento

15

Aps pareamento

15

Antes pareamento

kdensity _pscore 10

.4

.6 x kdensity _pscore

.8

1 kdensity _pscore

0 .2

kdensity _pscore 10

.4

.6 x

.8

kdensity _pscore

kdensity _pscore

21

Estrutura de pesos do Estimador Duplamente Robusto


O estimador duplamente robusto prev a estimativa do ATT em dois estgios. No primeiro temos um ( X ) = pr (Ti = 1 X i = x ) p logit para estimar , o propensity score.. No segundo estgio utilizamos uma regresso linear de Yi (nota de matemtica) em Ti e Xi ponderada pelo inverso das probabilidades de tratamento e no-tratamento, resultante do estimador de mnimos quadrados ponderados. Esse procedimento fez com que a amostra inicial de mais de 22 mil escolas se reduzisse para 13.217 observaes. Isso ocorreu devido ao fato de que existem algumas variveis includas no modelo (matriz X), que foram importantes para o ajuste do modelo (aumenta o Pseudo R2 e melhora o pareamento), mas nem todas as escolas tinham essa informao, ou seja, existncia de dados missing. As duas principais variveis com dados missing so a nota na Prova Brasil do ano de 2005 e a varivel que informa se a escola recebe apoio financeiro do governo estadual (proveniente do questionrio respondido pelo Diretor da escola). Os dados missing nessa primeira se deve principalmente ao fato de que em 2005, participaram da Prova Brasil escolas com mais de 30 alunos matriculados na 8 srie, j em 2007 esse corte caiu para 20, aumentando o universo de escolas avaliadas. J na outra varivel mencionada no temos uma explicao clara para os dados missing. Entretanto, analisamos se existem diferenas em um conjunto de variveis (como nota em 2005 e 2007, distribuio das escolas por regio e dependncia administrativa) entre as escolas da amostra inicial e da amostra final, aps o procedimento de estimao do ATT, e no encontramos diferenas significativas. Assim, a existncia desses dados missing aleatria entre as escolas, regies, dependncia administrativa e nvel de nota. Garantindo que os resultados encontrados so vlidos considerando nossa amostra inicial de escolas urbanas, participantes da Prova Brasil (2005 e 2007) distribudas nas cinco regies do pas. A tabela abaixo apresenta a distribuio das escolas pelas regies do pas e a mdia dos pesos e propensitity score estimado pelo procedimento duplamente robusto.
Tratadas Centro Oeste Nordeste Norte Sudeste Sul Total peso 0,0000799 0,0000799 0,0000799 0,0000799 0,0000799 0,0000799 pscore 0,9587068 0,9503205 0,9660536 0,9591005 0,9313826 0,9519136 n % 1.133 9,0 3.076 24,6 789 6,3 5.069 40,5 2.454 19,6 12.521 peso 0,0010363 0,0018283 0,0030773 0,0014221 0,0009793 0,0014368 Controle pscore 0,88274 0,924018 0,93459 0,829279 0,846166 0,865072 n 53 162 32 250 199 696 % 7,6 23,3 4,6 35,9 28,6

Podemos observar que, aps as estimativas, continuamos com escolas distribudas pelas cinco regies do pas, mantendo o padro da amostra original. Em relao aos pesos, observamos que ele correlacionado positivamente com o pscore nas escolas do grupo de controle, ou seja, as escolas com maior probabilidade de participao na OBMEP 2007 entre as escolas no participantes, possuem maior peso para a estimativa do ATT.

22