Beruflich Dokumente
Kultur Dokumente
impacto en la
práctica
Segunda edición
Se recomienda visitar el sitio web del libro
La evaluación de impacto en la práctica en
http://www.worldbank.org/ieinpractice. El
sitio web contiene materiales de apoyo, e
incluye soluciones para las preguntas del
estudio de caso HISP del libro, así como la
correspondiente base de datos y el código
de análisis del software Stata; un manual
técnico que proporciona un tratamiento más
formal del análisis de datos; presentaciones de
PowerPoint relacionadas con los capítulos; una
versión en línea del libro con hipervínculos a los
sitios web, y enlaces con otros materiales.
Derechos y permisos
Esta obra está disponible bajo la licencia de atribución de Creative Commons 3.0 IGO (CC BY 3.0 IGO) http://
creativecommons.org/licenses/by/3.0/igo. En el marco de la licencia de atribución Creative Commons, se permite
copiar, distribuir, transmitir y adaptar esta obra, incluso para objetivos comerciales, bajo las siguientes condiciones:
Atribución: se ruega citar la obra de la siguiente manera: Gertler, Paul J., Sebastián Martínez, Patrick Premand, Laura
B. Rawlings y Christel M. J. Vermeersch. 2017. La evaluación de impacto en la práctica, Segunda edición. Washington,
DC: Banco Interamericano de Desarrollo y Banco Mundial. doi:10.1596/978-1-4648-0888-3. Licencia de atribución:
Creative Commons CC BY 3.0 IGO
Traducciones: Si se procede a una traducción de esta obra, se ruega añadir la siguiente exención de responsabilidad
con la atribución: Esta traducción no es una creación del Banco Mundial y no se debería considerar una traducción oficial
del Banco Mundial. El Banco Mundial no será responsable de ningún contenido o error en esta traducción.
Adaptaciones: Si se crea una adaptación de esta obra, se ruega añadir la siguiente exención de responsabilidad o con la
siguiente atribución: Ésta es una adaptación de una obra original del Banco Mundial. Las ideas y opiniones expresadas en
la adaptación son responsabilidad exclusiva del autor o de los autores de la adaptación y no han sido refrendadas por el
Banco Mundial.
Contenidos de terceros: El Banco Mundial no es dueño necesariamente de cada componente del contenido de este
trabajo. Por lo tanto, el Banco Mundial no garantiza que el uso de cualquier componente individual o parte propiedad
de terceros contenido en la obra no vulnerará los derechos de esos terceros. El riesgo de reclamaciones que resulten de
dicha vulneración incumbe solo a usted. Si quiere reutilizar un componente de la obra, es responsabilidad suya
determinar si se requiere una autorización para esa reutilización y para obtener permiso del dueño de los derechos de
autor. Los ejemplos de los componentes pueden incluir cuadros, gráficos o imágenes, si bien no están limitados a ellos.
Todas las consultas sobre derechos y licencias deberán dirigirse a la División de Publicación y Conocimiento, Banco
Mundial, 1818 H Street NW, Washington, DC 20433, EE.UU.; fax: 202-522-2625; e-mail: pubrights@worldbank.org.
ISBN (papel): 978-1-4648-0888-3
ISBN (electrónica): 978-1-4648-0989-7
DOI: 10.1596/978-1-4648-0888-3
Ilustración: C. Andrés Gómez-Peña y Michaela Wieser
Diseño de la tapa: Critical Stages
CONTENIDOS
Prólogo xv
Agradecimientos xxi
Abreviaturas xxvii
v
El contrafactual 55
Dos estimaciones falsas del contrafactual 60
Glosario 361
Recuadros
1.1 Cómo una evaluación exitosa puede promover la sostenibilidad
política de un programa de desarrollo 5
1.2 El impacto de las políticas de un modelo preescolar innovador 7
1.3 Pruebas de la capacidad generalizable de los resultados 13
1.4 Simulación de posibles efectos del proyecto a través
del modelado estructural 16
1.5 Un método mixto de evaluación en acción 17
1.6 Fundamentos para una ampliación a escala nacional
mediante una evaluación de procesos en Tanzania 19
1.7 La evaluación de costo-efectividad 21
1.8 Evaluación de programas innovadores 25
1.9 La evaluación de alternativas de diseño de programas 26
1.10 El enfoque de evaluaciones de impacto de clusters 28
2.1 La articulación de una teoría del cambio: de los pisos
de cemento a la felicidad en México 37
2.2 Experimentos de mecanismo 41
2.3 Una reforma de las matemáticas en la enseñanza secundaria:
elaboración de una cadena de resultados y una pregunta de la
evaluación 43
3.1 El problema del contrafactual: la “señorita Única” y el
programa de transferencias condicionadas 56
4.1 La asignación aleatoria como un valioso instrumento operativo 73
4.2 La asignación aleatoria como regla de selección de
un programa: las transferencias condicionadas y la
educación en México 78
4.3 Asignación aleatoria de donaciones para mejorar las
perspectivas de empleo juvenil en el norte de Uganda 79
4.4 Asignación aleatoria de intervenciones en abastecimiento
de agua y saneamiento en zonas rurales de Bolivia 79
4.5 Asignación aleatoria de protección del agua de pozos
para mejorar la salud en Kenia 80
4.6 Asignación aleatoria e información a propósito de los riesgos
del VIH para reducir el embarazo adolescente en Kenia 81
5.1 El uso de variables instrumentales para evaluar el impacto
de Plaza Sésamo en la preparación escolar 101
5.2 Variables instrumentales para lidiar con la falta de cumplimiento
en un programa de vales escolares en Colombia 110
5.3 Promoción de inversiones en infraestructura educativa
en Bolivia 118
6.1 Uso del diseño de regresión discontinua para evaluar el
impacto de la reducción de las tarifas escolares en los
índices de matriculación en Colombia 126
6.2 Redes de protección social basadas en un índice de
pobreza en Jamaica 130
6.3 El efecto en el desempeño escolar de la agrupación de
alumnos según sus puntuaciones en las pruebas
educativas en Kenia 133
7.1 Utilización del método DD para entender el impacto de
los incentivos electorales en las tasas de abandono
escolar en Brasil 145
7.2 Aplicación del método de diferencias en diferencias para
estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina 149
7.3 Comprobando el supuesto de tendencias iguales:
privatización del agua y mortalidad infantil en Argentina 153
Contenidos ix
7.4 Poniendo a prueba el supuesto de tendencias iguales:
la construcción de escuelas en Indonesia 154
8.1 Diferencias en diferencias pareadas: caminos rurales
y desarrollo del mercado local en Vietnam 165
8.2 Pareamiento de diferencias en diferencias: suelos de
cemento, salud infantil y felicidad de las madres en México 166
8.3 El método de control sintético: los efectos económicos
de un conflicto terrorista en España 168
9.1 Cuentos tradicionales de la evaluación de impacto:
el efecto Hawthorne y el efecto John Henry 178
9.2 Externalidades negativas debidas a efectos de equilibrio
general: asistencia para la colocación laboral y resultados
del mercado de trabajo en Francia 183
9.3 Trabajando con los efectos de derrame: remedios
antiparasitarios, externalidades y educación en Kenia 184
9.4 Evaluación de los efectos de derrame: transferencias
condicionadas y derrames en México 187
9.5 El desgaste en estudios con seguimiento a largo plazo:
desarrollo infantil temprano y migración en Jamaica 189
9.6 Evaluación de los efectos a largo plazo: subsidios y adopción
de redes antimosquitos tratadas con insecticidas en Kenia 191
10.1 Prueba de la intensidad de un programa para mejorar la
adhesión a un tratamiento antirretroviral 198
10.2 Pruebas de alternativas de los programas para monitorear
la corrupción en Indonesia 199
11.1 Programas de transferencias monetarias condicionadas y
el nivel mínimo de intervención 221
12.1 Principios rectores de la participación de los equipos de
políticas públicas y de evaluación 228
12.2 Descripción general de un plan de evaluación de impacto 229
12.3 Ejemplos de modelos de equipos de investigación
y de políticas públicas 234
13.1 Registro de pruebas en las ciencias sociales 267
14.1 El impacto en las políticas públicas de un modelo
innovador de educación preescolar en Mozambique 277
14.2 Instrumentos de extensión y divulgación 284
14.3 La divulgación efectiva de las evaluaciones de impacto 285
14.4 Divulgación de las evaluaciones de impacto en línea 286
14.5 Blogs de evaluación de impacto 287
15.1 El muestreo aleatorio no es suficiente para la evaluación
de impacto 295
Gráficos
2.1 Los elementos de una cadena de resultados 39
B2.2.1 Identificación de un experimento de mecanismo en una
cadena de resultados más larga 42
B2.3.1 Cadena de resultados para la reforma de la currícula
de matemática en la escuela secundaria 43
2.2 La cadena de resultados del HISP 45
3.1 El clon perfecto 57
3.2 Un grupo de comparación válido 59
3.3 Estimaciones antes-después de un programa de microfinanzas 61
4.1 Características de los grupos bajo tratamiento con
asignación aleatoria 76
4.2 Muestra aleatoria y asignación aleatoria de tratamiento 81
4.3 Pasos para la asignación aleatoria del tratamiento 85
4.4 Asignación aleatoria del tratamiento mediante hoja de cálculo 87
4.5 Estimación del impacto con la asignación aleatoria 90
5.1 Asignación aleatoria con cumplimiento imperfecto 106
5.2 Estimación del efecto local promedio del tratamiento bajo
asignación aleatoria con cumplimiento imperfecto 107
5.3 Proceso de promoción aleatoria 116
5.4 Estimación del efecto local promedio del tratamiento bajo la
promoción aleatoria 117
6.1 Producción de arroz, fincas pequeñas vs. fincas grandes
(línea de base) 128
6.2 Producción de arroz, fincas pequeñas vs. fincas grandes
(seguimiento) 129
6.3 Cumplimiento de la asignación 132
6.4 Manipulación del índice de elegibilidad 133
Contenidos xi
6.5 HISP: densidad de los hogares, según el índice de
pobreza de línea de base 135
6.6 Participación en el HISP, según el índice de pobreza
de línea de base 135
6.7 Índice de pobreza y gastos en salud: el HISP dos años después 136
7.1 El método de diferencias en diferencias 146
7.2 Diferencias en diferencias cuando las tendencias de
los resultados son diferentes 151
8.1 Pareamiento exacto en cuatro características 160
8.2 Pareamiento por puntajes de propensión y rango común 162
8.3 Pareamiento para el HISP: rango común 170
9.1 Un ejemplo clásico de efecto de derrame: externalidades
positivas de la administración de remedios antiparasitarios
a los niños de las escuelas 186
10.1 Pasos para la asignación aleatoria de dos niveles de tratamiento 197
10.2 Pasos para la asignación aleatoria de dos intervenciones 200
10.3 Diseño híbrido para un programa con dos intervenciones 201
15.1 Uso de una muestra para inferir las características promedio
de una población de interés 292
15.2 Un marco muestral válido cubre el conjunto de la población
de interés 293
B15.1.1 Muestreo aleatorio entre grupos no comparables de
participantes y no participantes 296
B15.1.2 Asignación aleatoria de los beneficios de un programa
entre un grupo de tratamiento y un grupo de comparación 297
15.3 Una muestra más grande tiene más probabilidades de
parecerse a la población de interés 300
Cuadros
3.1 Evaluación del HISP según comparación antes-después 64
3.2 Impacto del HISP según comparación antes-después
(análisis de regresión) 64
3.3 Evaluación del HISP según comparación inscritos-no inscritos
(comparación de medias) 67
3.4 Evaluación del HISP según comparación inscritos-no inscritos
(análisis de regresión) 68
4.1 Evaluación del HISP: balance entre los pueblos de
tratamiento y de comparación en la línea de base 93
4.2 Evaluación del HISP según la asignación aleatoria
(comparación de medias) 94
Contenidos xiii
15.3 Evaluación del HISP+: tamaño requerido de la muestra
para identificar diversos efectos mínimos detectables,
potencia = 0,8 310
15.4 Evaluación del HISP+: tamaño requerido de la muestra
para detectar diversos efectos mínimos deseados
(aumento de la tasa de hospitalización) 311
15.5 Evaluación del HISP+: tamaño requerido de la muestra
para identificar diversos efectos mínimos detectables
(disminución de los gastos del hogar en salud) 314
15.6 Evaluación del HISP+: tamaño requerido de la muestra
para detectar un impacto mínimo de US$2 en diversas
cantidades de clusters 315
xv
esto es al comienzo de un programa, mediante el diseño de evaluaciones de
impacto prospectivas que se incluyan en la implementación de un proyecto.
Sostenemos que alcanzar un consenso entre las principales partes interesa-
das y la definición de un diseño de evaluación adecuado al contexto político
y operativo es tan importante como el propio método. También creemos que
las evaluaciones de impacto deberían ser claras a propósito de sus limitacio-
nes y sus advertencias. Por último, alentamos encarecidamente a los respon-
sables de las políticas públicas y a los administradores de los programas a
considerar las evaluaciones de impacto como parte de una teoría bien desa-
rrollada del cambio que establece con claridad las vías causales mediante las
cuales un programa funciona para elaborar productos e influir en los resul-
tados finales, y los alentamos a combinar las evaluaciones de impacto con
enfoques de monitoreo y de evaluación complementarios con el fin de obte-
ner un cuadro completo de los resultados.
Nuestras experiencias y lecciones sobre cómo llevar a cabo evaluaciones
de impacto en la práctica se basan en la enseñanza y en el trabajo con cientos
de socios idóneos de los ámbitos gubernamentales, académicos y del desa-
rrollo. El libro se fundamenta colectivamente en décadas de experiencia en
el trabajo con evaluaciones de impacto en casi todos los rincones del pla-
neta, y está dedicado a las futuras generaciones de profesionales y responsa-
bles de las políticas públicas.
Esperamos que estas páginas constituyan un valioso recurso para la
comunidad internacional de desarrollo, las universidades y los responsables
de las políticas públicas que intentan construir evidencia válida en torno a lo
que funciona en el desarrollo. Más y mejores evaluaciones de impacto con-
tribuirán a fortalecer la base de evidencia para las políticas y los programas
de desarrollo en todo el mundo. Tenemos la esperanza de que si los gobier-
nos y los profesionales del desarrollo pueden tomar decisiones de políticas
públicas sobre la base de la evidencia, incluida la evidencia generada a tra-
vés de la evaluación de impacto, los recursos para el desarrollo se destinarán
de manera más efectiva para reducir la pobreza y mejorar las vidas de las
personas.
Prólogo xvii
segunda parte es la más adecuada para un determinado programa, de
acuerdo con sus reglas operativas. En el capítulo 12 se aborda la relación
entre el equipo de investigación y el equipo de políticas públicas, y sus
respectivos roles para conformar conjuntamente un equipo de evalua-
ción. Se examina la diferencia entre independencia y ausencia de sesgo, y
se ponen de relieve ámbitos que pueden ser delicados para llevar a cabo
una evaluación de impacto. Se ofrece orientación sobre cómo gestionar
las expectativas, se destacan algunos de los riesgos habitualmente pre-
sentes en la realización de evaluaciones de impacto, y se brindan suge-
rencias sobre cómo manejarlos. El capítulo concluye con una visión
general de cómo gestionar las actividades de la evaluación de impacto, lo
que incluye la creación de un equipo de evaluación, la programación en el
tiempo de la misma, el presupuesto, la captación de fondos y la recopila-
ción de datos. En el capítulo 13 se proporciona una visión general de la
ética y la ciencia de la evaluación de impacto, lo cual incluye la importan-
cia de no negar beneficios a los beneficiarios elegibles en aras de la eva-
luación; en el capítulo también se resalta el rol de las juntas de revisión
institucional, que aprueban y monitorean la investigación con sujetos
humanos, y se aborda la importancia de registrar las evaluaciones
siguiendo la práctica de la ciencia abierta, de acuerdo con la cual los datos
se ponen a disposición del público para posteriores investigaciones y
para replicar resultados. El capítulo 14 proporciona una visión novedosa
sobre cómo utilizar las evaluaciones de impacto para fundamentar las
políticas públicas, incluyendo consejos sobre cómo conseguir que los
resultados sean relevantes; un debate sobre el tipo de productos que las
evaluaciones de impacto pueden y deben producir, y orientación sobre
cómo extraer y divulgar las conclusiones para maximizar el impacto de
las políticas públicas.
La cuarta parte, “Cómo obtener datos para una evaluación de impacto”
(capítulos 15 a 17), se ocupa de la forma de recopilar datos, lo que incluye
elegir la muestra y determinar el tamaño apropiado de la muestra de la eva-
luación (capítulo 15), así como también encontrar fuentes de datos adecua-
dos (capítulo 16). El capítulo 17 concluye y proporciona algunas listas de
verificación.
Prólogo xix
AGRADECIMIENTOS
Los materiales didácticos sobre los que se basa este libro han experimen-
tado numerosas versiones, y han sido enseñados por diversos y talentosos
profesores, todos los cuales han dejado su impronta en los métodos y en el
enfoque de la evaluación de impacto enunciados en el libro. Queremos agra-
decer y reconocer las contribuciones y los aportes sustanciales de diversos
profesores que han participado en los seminarios en los que se basaba la
primera edición, y que incluyen a Paloma Acevedo Alameda, Felipe Barrera,
Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro
Carneiro, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz,
Deon Filmer, Jed Friedman, Emanuela Galasso, Sebastián Galiani, Arianna
Legovini, Phillippe Leite, Gonzalo Hernández Licona, Mattias Lundberg,
Karen Macours, Juan Muñoz, Plamen Nikolov, Berk Özler, Nancy Qian,
Gloria M. Rubio, Norbert Schady, Julieta Trias, y Sigrid Vivo Guzmán.
Agradecemos los comentarios realizados por nuestros revisores pares en la
primera edición del libro (Barbara Bruns, Arianna Legovini, Dan Levy y
Emmanuel Skoufias) y la segunda edición (David Evans, Francisco Gallego,
Dan Levy y Damien de Walque), así como también las observaciones de
Gillette Hall. Deseamos asimismo expresar nuestro agradecimiento por los
esfuerzos de un talentoso equipo organizador, que incluye a Holly Balgrave,
Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana Ringland,
Adam Ross y Jennifer Sturdy.
Extendemos igualmente nuestro reconocimiento a todos los que partici-
paron en las transcripciones del borrador del seminario de julio de 2009
realizado en Beijing, China, en el que se basan partes de este libro, especial-
mente a Paloma Acevedo Alameda, Carlos Asenjo Ruiz, Sebastian Bauhoff,
Bradley Chen, Changcheng Song, Jane Zhang y Shufang Zhang.
Reconocemos a Garret Christensen y a la Berkeley Initiative for
Transparency in the Social Sciences, así como a Jennifer Sturdy y Elisa
Rothenbühler por sus aportes al capítulo 13. También agradecemos a Marina
xxi
Tolchinsky y Kristine Cronin por su excelente apoyo en la investigación; a
Cameron Breslin y Restituto Cárdenas por el respaldo en la programación; a
Marco Guzmán y Martin Ruegenberg por el diseño de las ilustraciones, y a
Nancy Morrison, Cindy A. Fisher, Fiona Mackintosh y Stuart K. Tucker por
el apoyo editorial durante la producción de la primera y la segunda edición
del libro.
Reconocemos y agradecemos el apoyo permanente y el entusiasmo por
este proyecto de nuestros directivos en el Banco Mundial y el Banco
Interamericano de Desarrollo, y especialmente al equipo del SIEF, entre
ellos Daphna Berman, Holly Blagrave, Restituto Cárdenas, Joost de Laat,
Ariel Fiszbein, Alaka Holla, Aliza Marcus, Diana-Iuliana Pirjol, Rachel
Rosenfeld y Julieta Trias. Estamos sumamente agradecidos por el apoyo
recibido de la administración del SIEF, incluyendo a Luis Benveniste, Joost
de Laat y Julieta Trias. Agradecemos igualmente a Andrés Gómez-Peña y
Michaela Wieser del Banco Interamericano de Desarrollo, y a Mary Fisk,
Patricia Katayama, y Mayya Revzina, del Banco Mundial, por su ayuda con
las comunicaciones y el proceso de publicación.
La producción de la segunda edición de este libro en su versión en espa-
ñol fue realizada por la Oficina de Planificación Estratégica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo. Reconocemos parti-
cularmente a Carola Álvarez y Arturo Galindo por su apoyo en esta inicia-
tiva. Quedamos endeudados con Andrés Gómez-Peña y Michaela Wieser
por su esfuerzo y dedicación en la coordinación del proceso de producción
editorial de este volumen. De igual manera, agradecemos especialmente a
Alberto Magnet por la traducción del libro al español, así como a Claudia M.
Pasquetti, a cargo de la edición y lectura de pruebas en dicho idioma. Cabe
también nuestro reconocimiento del aporte de los revisores técnicos de
cada uno de los capítulos en español: Paloma Acevedo, Jorge Marcelo
Franco Quincot, Gastón Gertner y Bibiana Taboada.
Por último, quisiéramos brindar nuestro reconocimiento a los partici-
pantes de los numerosos talleres, sobre todo los celebrados en Abiyán,
Accra, Adís Abeba, Amán, Ankara, Beijing, Berkeley, Buenos Aires, Cairo,
Ciudad de Panamá, Ciudad del Cabo, Cuernavaca, Dakar, Daca, Fortaleza,
Katmandú, Kigali, Lima, Madrid, Managua, Manila, Ciudad de México,
Nueva Delhi, Paipa, Pretoria, Rio de Janeiro, San Salvador, Santiago,
Sarajevo, Seúl, Sofía, Túnez y Washington, D.C.
Gracias a su interés, a sus inteligentes preguntas y a su entusiasmo,
hemos sido capaces de aprender paso a paso qué buscan los responsables de
las políticas públicas en las evaluaciones de impacto. Esperamos que este
libro refleje sus ideas.
xxiii
doctorado en economía de la Universidad de California, Berkeley, con
una especialización en desarrollo y microeconomía aplicada.
xxvii
RIDIE Registry for International Development Impact Evaluations
SIEF Fondo Estratégico de Evaluación de Impacto (Banco Mundial)
SUTVA Supuesto de estabilidad del valor de la unidad de tratamiento
TOT Tratamiento en los tratados
USAID Agencia de Estados Unidos para el Desarrollo Internacional
INTRODUCCIÓN A
LA EVALUACIÓN DE
IMPACTO
3
El monitoreo y la evaluación son fundamentales en la formulación de
políticas basadas en evidencia. Ofrecen un conjunto central de instru-
mentos que las partes interesadas pueden utilizar para verificar y mejorar
la calidad, eficiencia y efectividad de las políticas y de los programas en
diferentes etapas de implementación o, en otras palabras, para centrarse
en los resultados. A nivel de la gestión del programa, es necesario saber
cuáles son las opciones de diseño costo-efectivas, o demostrar ante los
responsables de la toma de decisiones que los programas están logrando
sus resultados previstos con el fin de obtener asignaciones presupuesta-
rias para continuarlos o ampliarlos. A nivel nacional, los ministerios
compiten unos con otros para obtener financiamiento del ministerio de
Finanzas. Y, por último, los gobiernos deben rendir cuentas ante los ciu-
dadanos para informales del resultado de los programas públicos. La evi-
dencia puede constituir una base sólida para la transparencia y la rendición
de cuentas.
La evidencia robusta generada por las evaluaciones de impacto está sir-
viendo cada vez más como fundamento para una mayor rendición de cuen-
tas, innovación y aprendizaje. En un contexto en que los responsables de las
políticas y la sociedad civil exigen resultados y la rendición de cuentas de los
programas públicos, la evaluación de impacto puede proporcionar eviden-
cia robusta y creíble sobre el desempeño y ante todo sobre si un programa
concreto ha alcanzado o está alcanzando sus resultados deseados. Las eva-
luaciones de impacto también son cada vez más utilizadas para probar inno-
vaciones en el diseño de programas o en la prestación de servicios. A nivel
mundial, estas evaluaciones son fundamentales para construir conocimien-
tos acerca de la efectividad de los programas de desarrollo, iluminando
sobre lo que funciona y no funciona para reducir la pobreza y mejorar el
bienestar.
En pocas palabras, una evaluación de impacto mide los cambios en el
bienestar de los individuos que se pueden atribuir a un proyecto, un pro-
grama o una política específicos. Este enfoque en la atribución es el sello
distintivo de las evaluaciones de impacto. Por lo tanto, el reto fundamental
en una evaluación de esta naturaleza consiste en identificar la relación
causal entre el programa o la política y los resultados de interés.
Las evaluaciones de impacto suelen medir el impacto promedio de un
programa, las modalidades del programa o una innovación en el diseño. Por
ejemplo, ¿el programa de agua y saneamiento aumentó el acceso a agua
potable y mejoró los resultados de salud? ¿Un programa de estudios alterna-
tivo mejoró las puntuaciones de las pruebas de los alumnos? ¿La innovación
de incluir destrezas cognitivas como parte de un programa de formación de
jóvenes ha tenido éxito promoviendo la iniciativa empresarial e incremen-
tando los ingresos? En cada uno de estos casos, la evaluación de impacto
4 La evaluación de impacto en la práctica
proporciona información sobre si el programa provocó los cambios deseados
en los resultados, al compararse con estudios de casos o anécdotas específi-
cas, que solo pueden brindar información parcial y que quizá no sean repre-
sentativos de los impactos generales del programa. En este sentido, las
evaluaciones de impacto bien diseñadas y bien implementadas son capaces
de proporcionar evidencia convincente y exhaustiva que puede ser utilizada
para fundamentar las decisiones de las políticas, influir en la opinión pública
y mejorar el funcionamiento de los programas.
Las evaluaciones de impacto clásicas abordan la efectividad de un pro-
grama en comparación con la ausencia del mismo. El recuadro 1.1 se refiere a
la evaluación de impacto bien conocida del programa de transferencias con-
dicionadas en México, e ilustra cómo la evaluación contribuyó a los debates
de las políticas públicas en relación con la ampliación del programa.1
Fuentes: Behrman y Hoddinott (2001); Fiszbein y Schady (2009); Gertler (2004); Levy y Rodríguez (2005); Schultz
(2004); Skoufias y McClafferty (2001).
Enfoques complementarios
El monitoreo
Simulaciones ex ante
Las simulaciones ex ante son evaluaciones que utilizan datos disponibles para
simular los efectos esperados de una reforma de programas o políticas en los
resultados de interés. Pueden ser muy útiles para medir la efectividad espe-
rada relativa de una gama de opciones de diseño de programas alternativos
en los resultados. Se trata de métodos habitualmente usados que dependen
de la disponibilidad de datos de gran alcance y calidad que se pueden utilizar
para aplicar modelos de simulación adecuados a la pregunta en cuestión
(véase el recuadro 1.4). Al contrario de las evaluaciones de impacto, estos
métodos se emplean para simular futuros efectos potenciales, más que para
medir los impactos reales de los programas implementados. Este tipo de
métodos puede ser sumamente útil para establecer referencias para los pro-
bables efectos del programa y para instituir objetivos realistas, así como para
estimar costos, tasas de retorno y otros parámetros económicos. Se suelen
utilizar como la base de los análisis económicos de los proyectos, especial-
mente antes de que se introduzca una reforma o se implemente un proyecto.
¿Por qué evaluar? 15
Recuadro 1.4: Simulación de posibles efectos del proyecto a
través del modelado estructural
Combinación de una prueba controlada más largo plazo. Si bien el RCT encontró que
aleatoria con un estudio etnográfico en la intervención no tenía un impacto estadís-
India tico significativo, el estudio cualitativo pro-
Los enfoques de métodos mixtos pueden ser porcionó visiones novedosas de las causas
especialmente útiles cuando evalúan progra- del “fracaso” de la intervención. La investi-
mas con resultados que son difíciles de medir gación cualitativa identificó diversos facto-
en las encuestas cuantitativas. Los progra- res que obstaculizaron la efectividad de la
mas de los ámbitos de democracia y gober- esta última: las variaciones en la calidad de
nanza constituyen ejemplos de este tipo. la facilitación del programa, la falta de apoyo
Así, mientras se diseñaba una estrategia de arriba hacia abajo y las arraigadas estruc-
de evaluación para el programa “Campaña del turas de poder local.
pueblo” que pretendía mejorar la participa- La evidencia cualitativa también descubrió
ción ciudadana en los gobiernos locales, algunos impactos del programa menos tangi-
Ananthpur, Malik y Rao (2014) integraron un bles e inesperados. En los pueblos del trata-
ensayo controlado aleatorio (RCT, por sus miento, el programa mejoró la resolución de
siglas en inglés, Randomized Control Trial) conflictos en la prestación de servicios y
(véase el glosario) con un estudio etnográfico aumentó la participación de las mujeres en
llevado a cabo en un subconjunto del 10% de las actividades de desarrollo de sus comuni-
la muestra de evaluación utilizada para el RCT. dades. Además, los investigadores de campo
Se emplearon métodos de pareamiento para observaron que los gobiernos locales funcio-
asegurar características similares entre pue- naban mejor en los pueblos de tratamiento.
blos de tratamiento y de comparación en la Sin la comprensión matizada del con-
muestra para el estudio cualitativo. Se asignó texto y de la dinámica local que proporciona
un experimentado investigador de campo el componente cualitativo, los investigado-
para que viviera en cada pueblo y estudiara res no habrían podido entender por qué los
los impactos del programa en las estructuras datos cuantitativos no encontraron impac-
sociales y políticas del pueblo. tos. El estudio etnográfico fue capaz de pro-
El estudio etnográfico continuó durante porcionar una evaluación más rica, con
dos años después de que terminó el RCT, lo perspectivas novedosas de los elementos
que permitió observaciones de efectos a útiles para mejorar el programa.
Fuente: Ananthpur, Malik y Rao (2014).
Recursos adicionales
• Para material relacionado con este capítulo e hipervínculos de recursos adi-
cionales, se recomienda consultar el sitio web de Evaluación de Impacto en la
Práctica (www.worldbank.org/ieinpractice).
• Para más información sobre las evaluaciones de impacto, véase S. R. Khandker,
G. B. Koolwal y H. A. Samad (2009), Handbook on Quantitative Methods of
Program Evaluation. Washington, D.C.: Banco Mundial.
• Para un buen resumen de las pruebas controladas aleatorias, véase R. Glen-
nerster y K. Takavarasha (2013), Running Randomized Evaluations: A Practical
Guide. Princeton, NJ: Princeton University Press.
• Otros recursos sobre pruebas controladas aleatorias:
➢ E. Duflo, R. Glennerster y M. Kremer (2007), “Using Randomization in
Development Economics Research: A Toolkit.” Documento de discusión
CEPR Núm. 6059. Londres: Center for Economic Policy Research.
➢ E. Duflo y M. Kremer (2008), “Use of Randomization in the Evaluation
of Development Effectiveness.” En: Evaluating Development Effectiveness
(vol. 7). Washington, D.C.: Banco Mundial.
• Otros recursos útiles sobre evaluación de impacto:
➢ F. Leeuw y J. Vaessen (2009), Impact Evaluations and Development. NONIE
Guidance on Impact Evaluation. Washington, D.C.: NONIE.
➢ M. Ravallion (2001), “The Mystery of the Vanishing Benefits: Ms. Speedy
Analyst’s Introduction to Evaluation.” World Bank Economic Review 15 (1):
115–40.
➢ ———.2008. “Evaluating Anti-Poverty Programs.” En: Handbook of Develop-
ment Economics (vol. 4), editado por Paul Schultz y John Strauss. Ámster-
dam: North Holland.
➢ ———.2009. “Evaluation in the Practice of Development.” World Bank
Research Observer 24 (1): 29–53.
Notas
1. Para una visión general de los programas de transferencias condicionadas y el
influyente rol que desempeña el programa de México, así como también su
evaluación de impacto, véase Fiszbein y Schady (2009).
Referencias bibliográficas
Ananthpur, K., K. Malik y V. Rao. 2014. “The Anatomy of Failure: An Ethnography
of a Randomized Trial to Deepen Democracy in Rural India.” Documento de
trabajo de investigación 6958. Washington, D.C.: Banco Mundial.
Bamberger, M., V. Rao y M. Woolcock. 2010. “Using Mixed Methods in Monitoring
and Evaluation: Experiences from International Development.” Documento de
trabajo de investigación de políticas Núm. 5245. Washington, D.C.: Banco
Mundial.
Banerjee, A., E. Duflo, N. Goldberg, D. Karlan, R. Osei, et al. 2015. “A Multifaceted
Program Causes Lasting Progress for the Very Poor: Evidence from Six
Countries.” Science 348 (6236). doi:10.1126/science.1260799.
Behrman, J. R. y J. Hoddinott. 2001. “An Evaluation of the Impact of PROGRESA
on Pre-school Child Height.” FCND Briefs 104, International Food Policy
Research Institute, Washington, D.C.
Belli, P., J. Anderson, H. Barnum, Jo. Dixon y J. P. Tan. 2001. Handbook of Economic
Analysis of Investment Operations. Washington, D.C.: Banco Mundial.
Berk, R. A. y P. Rossi. 1998. Thinking about Program Evaluation 2 (2da. edición).
Thousand Oaks, CA: Sage Publications.
Berman, D. 2014. “Tanzania: Can Local Communities Successfully Run Cash
Transfer Programs?” Washington, D.C.: Human Development Network, Banco
Mundial.
Boardman, A., A. Vining, D. Greenberg y D. Weimer. 2001. Cost-Benefit Analysis:
Concepts and Practice. New Jersey: Prentice Hall.
Bourguignon, F., F. H. G. Ferreira y P. G. Leite. 2003. “Conditional Cash Transfers,
Schooling y Child Labor: Micro-Simulating Brazil’s Bolsa Escola Program.”
The World Bank Economic Review 17 (2): 229–54.
BRAC (Bangladesh Rural Advancement Committee). 2013. “An End in Sight for
Ultra-poverty.” Nota de información de BRAC (noviembre). Disponible en
http://www.brac.net/sites/default/files/BRAC%20Briefing%20-%20TUP.pdf.
La preparación de una
evaluación
Pasos iniciales
Este capítulo reseña los pasos iniciales que es preciso ejecutar para configu-
rar una evaluación. Estos pasos son: i) construir una teoría del cambio que
describa cómo se supone que el proyecto logrará los objetivos previstos;
ii) elaborar una cadena de resultados que sirva como instrumento útil para
esbozar la teoría del cambio; iii) especificar las preguntas de la evaluación; y
iv) seleccionar los indicadores para evaluar el desempeño.
Los cuatro pasos son necesarios y es preferible implementarlos al inicio, es
decir, cuando comienza a diseñarse el proyecto de evaluación del programa o
de las reformas. Esto requiere la participación de todas las partes interesadas,
desde los responsables de las políticas hasta los implementadores del pro-
yecto, con el fin de forjar una visión común de los objetivos y de cómo serán
alcanzados. Esta participación permitirá crear un consenso sobre el enfoque
de la evaluación y las principales preguntas a responder, y reforzará los víncu-
los entre la evaluación, la implementación del programa y el diseño de políti-
cas públicas. La aplicación de estos pasos contribuye a la claridad y la
especificidad, que son útiles tanto para elaborar una buena evaluación de
impacto como para diseñar e implementar un programa efectivo. Cada uno de
los pasos está claramente definido y está articulado en el modelo lógico incor-
porado en la cadena de resultados desde la precisión en la determinación de
35
los objetivos y las preguntas hasta la definición de las ideas integradas en la
teoría del cambio, y los resultados esperados por la implementación del pro-
grama. Se requiere una especificación clara de los indicadores concretos que
se utilizarán para medir el éxito del programa, no solo para asegurar que la
evaluación esté enfocada sino también que el programa tenga objetivos bien
definidos. Esto también proporciona una base firme para anticipar los efectos
producidos. Estos parámetros son esenciales para definir los elementos técni-
cos de la evaluación, incluyendo el tamaño de la muestra requerida para la
evaluación y los cálculos de la potencia, como se analiza en el capítulo 15.
En la mayoría de las evaluaciones de impacto será importante incluir una
evaluación de costo-beneficio, o costo-efectividad, como se indica en el
capítulo 1. Los formuladores de política deberán estar atentos para saber
qué programas o reformas son efectivos pero también cuál es su costo.
Se trata de un aspecto crucial para fundamentar decisiones acerca de si es
viable aumentar la escala de un programa y si es posible replicarlo, dos con-
sideraciones importantes en las decisiones de políticas públicas.
Una teoría del cambio es la descripción de cómo se supone que una interven-
ción conseguirá los resultados deseados. En ese sentido, expone la lógica cau-
sal de cómo y por qué un proyecto, una modalidad de programa o un diseño
de innovación lograrán los resultados previstos. Debido al enfoque causal de
la investigación, una teoría del cambio es la base de cualquier evaluación de
impacto. Su construcción es uno de los primeros requisitos para el diseño del
proyecto, ya que contribuye a especificar las preguntas de la investigación.
Las teorías del cambio describen una secuencia de eventos que generan
resultados: analizan las condiciones y los supuestos necesarios para que
se produzca el cambio, explicitan la lógica causal inscrita en el programa y
trazan el mapa de las intervenciones del programa a lo largo de las vías lógicas
causales. Configurar una teoría del cambio en conjunto con las partes intere-
sadas puede clarificar y mejorar el diseño del programa. Esto es especialmente
importante en los programas que pretenden influir en las conductas, pues las
teorías del cambio pueden ayudar a determinar los insumos y actividades de
la intervención, qué productos se generan y cuáles son los resultados finales
derivados de los cambios de comportamiento de los beneficiarios.
El mejor momento para desarrollar una teoría del cambio es al comienzo
de la fase de diseño, cuando es posible reunir a las partes interesadas con el
fin de definir una visión colectiva del programa, sus objetivos y la ruta para
alcanzar esos objetivos. Así, las partes interesadas podrán implementar el
programa a partir de un entendimiento común del mismo, de sus objetivos y
de su funcionamiento.
36 La evaluación de impacto en la práctica
Por otra parte, es útil que los diseñadores de programas revisen la
literatura en busca de evidencia que describa experiencias y programas
similares, y comprueben los contextos y los supuestos detrás de las vías
causales de la teoría del cambio que configuran. Por ejemplo, en el caso del
proyecto de reemplazo de suelos de tierra por suelos de cemento desarro-
llado en México (que se reseña en el recuadro 2.1), la literatura aporta
Una cadena de resultados es una manera de describir una teoría del cambio.
Otros enfoques incluyen modelos teóricos, modelos lógicos, marcos lógicos
y modelos de resultados. Todos estos modelos integran los elementos bási-
cos de una teoría del cambio, a saber: una cadena causal, una especificación
de las condiciones e influencias externas y la determinación de los supues-
tos clave. En este libro se utilizará el modelo de cadena de resultados porque
es el más sencillo y claro para describir la teoría del cambio en el contexto
Concepto clave operativo de los programas de desarrollo.
Una cadena de Una cadena de resultados establece la lógica causal desde el inicio del
resultados establece la programa, empezando con los recursos disponibles, hasta el final,
secuencia de insumos,
teniendo en cuenta los objetivos de largo plazo. Fija una definición lógica
actividades y
productos que y plausible de cómo una secuencia de insumos, actividades y productos
previsiblemente relacionados directamente con el proyecto interactúa con el comporta-
mejorarán los miento y define las vías para lograr los impactos (véase el gráfico 2.1). Una
resultados y los cadena de resultados básica esquematizará un mapa con los siguientes
resultados finales.
elementos:
• Insumos. Los recursos de que dispone el proyecto, que incluyen el
personal y el presupuesto.
• Actividades. Las acciones emprendidas o el trabajo realizado para trans-
formar los insumos en productos.
• Productos. Los bienes y servicios tangibles que producen las actividades
del programa (controlados de forma directa por la agencia ejecutora).
• Resultados. Los resultados que previsiblemente se lograrán cuando la
población se beneficie de los productos del proyecto. En general, estos
resultados se observan entre el corto y el mediano plazo y no suelen estar
controlados de forma directa por la agencia ejecutora.
• Resultados finales. Los resultados finales alcanzados señalan si los objeti-
vos del proyecto se cumplieron o no. Normalmente, los resultados finales
dependen de múltiples factores y se producen después de un período
más largo.
Tanto la implementación como los resultados forman parte de la cadena
de resultados. La ejecución tiene que ver con el trabajo efectuado en el
38 La evaluación de impacto en la práctica
Gráfico 2.1 Los elementos de una cadena de resultados
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS FINALES
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES
7 F,+",0 7 S2 0'"',0 a ),0 7 A2*#+1, "#) +?*#/, 7 L,0 /#0'"#+1#0 "# 7 M#+,/ -/#3a)#+!'a
3#+"#",/#0 "# "# 1'#+"a0/-2#01,0 a//',0 -, /#0 "# )a , #0'"a"
$/21a0 5 3#/"2/a0 .2# 3#+"#+ $/21a 5 !,+02*#+ *;s #+1/# /#0'"#+1#0
3#/"2/a a)'*#+1,0 +21/'1'3,0 "# a//',0 -, /#s
7 Ma5,/ "'0-,+' ')'"a"
"# a)'*#+1,0 +21/'1'3,0
#+ a//',0 -, /#0
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES
7 P/#02-2#01, -a/a 7 D'0#=, "#) +2#3, 7 5.000 -/,$#0,/#0 7 L,0 -/,$#0,/#0 20a+ 7 M#(,/a "# )a0 1a0a0
#) +2#3, -/,%/a*a -/,%/a*a "# "# *a1#*;1'!a0 ),0 )' /,0 "# 1#41, "# $'+a)'6a!'>+.
"# *a1#*;1'!a0. #012"',0. "# 0#!2+"a/'a 5 #) +2#3, -/,%/a*a 7 A2*#+1, "# ),0
7 D,1a!'>+ "# 7 Ca-a!'1a!'>+ "# !a-a!'1a",0. "# #012"',0 #+ '+%/#0,0.
-#/0,+a) "#) -/,$#0,/#0. 7 100.000 )' /,0 "# )a !)a0#. 7 A2*#+1, "#) #*-)#,.
*'+'01#/', "# 7 E"'!'>+, '*-/#0'>+, 1#41, #+1/#%a",0 7 L,0 #012"'a+1#0
0'%2#+ #) -/,%/a*a
E"2!a!'>+ 5 "# "'01/' 2!'>+ "# #+ )a0 !)a0#0.
"# #012"',0.
-/,$#0,/#0 "# +2#3,0 )' /,0
7 M#(,/a "#)
0#!2+"a/'a. "# 1#41,. "#0#*-#=, "# ),0
7 I+01a)a!',+#0 #012"'a+1#0 #+ ),0
*2+'!'-a)#0 "# #4;*#+#0 "#
!a-a!'1a!'>+. *a1#*;1'!a0.
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES
7 P/#02-2#01, -a/a 7 D'0#=, "# ),0 7 E.2'-a*'#+1,0 "# 7 N?*#/, 5 -,/!#+1a(# 7 M#(,/a #+ ),0
#) -)a+ -'),1, HISP. #+#$'!',0 5 #) 0a)2" #+ 100 "# &,%a/#0 #)#%' )#0 /#02)1a",0 "#
7 R#" "# $2+!',+a*'#+1, "#) !,*2+'"a"#0 /2/a)#0 '+0!/'1,0 #) -/'*#/ a=,. 0a)2".
#.2'-a*'#+1,0 HISP. -'),1, .2# -a/1'!'-a+ 7 M#+,/ %a01, #+ 0a)2"
"# 0a)2". 7 F,/*a!'>+ "# "#) -/,%/a*a. "# ),0 &,%a/#0 /2/a)#0
7 P#/0,+a) #+ -#/0,+a) #+ !)<+'!a0 7 Ca*-a=a -a/a ))#%a/ -, /#0.
,$'!'+a0 "# 0a)2" /2/a)#0 "# a 4.959 &,%a/#0 7 M#(,/a "#) a!!#0, a
"#) %, '#/+, !,*2+'"a"#0 -'),1,. #)#%' )#0 #+ )a0 a1#+!'>+ -/'*a/'a.
!#+1/a) 5 ),!a). 7 E01a )#!'*'#+1, "# !,*2+'"a"#0 -'),1,. 7 Sa1'0$a!!'>+ !,+ #)
0'01#*a0 "# -a%,0 5 -/,%/a*a HISP.
"# '+$,/*a!'>+ 0, /#
%#01'>+.
7 La+6a*'#+1, "#) HISP
#+ 100 !,*2+'"a"#0
/2/a)#0 -'),1,.
7 Ca*-a=a '+$,/*a1'3a
5 #"2!a1'3a.
R#02)1a",0 (LADO DE LA DEMANDA +
I*-)#*#+1a!'>+ (LADO DE LA OFERTA)
LADO DE LA OFERTA)
Como lista de verificación final, una vez que se han seleccionado los indica-
dores es útil pensar en las disposiciones para producir los datos con el fin de
medir los indicadores. En el capítulo 4 se presenta un debate exhaustivo
Recursos adicionales
• Para obtener material complementario de este capítulo y para conseguir
hipervínculos a recursos adicionales se recomienda consultar el sitio de la
Evaluación de Impacto en la Práctica (http://www.worldbank.org/ieinpractice).
Referencias bibliográficas
Cattaneo, M., S. Galiani, P. Gertler, S. Martinez y R. Titiunik. 2009. “Housing,
Health and Happiness.” American Economic Journal: Economic Policy 1 (1):
75–105.
Morra Imas, L. y R. Rist. 2009. “The Road to Results: Designing and Conducting
Effective Development Evaluations.” Washington, D.C.: Banco Mundial.
Kusek, J. y R. Rist. 2004. “Ten Steps to a Results-Based Monitoring and Evaluation
System.” Washington, D.C.: Banco Mundial.
Ludwig, J., J. Kling y S. Mullainathan. 2011. “Mechanism Experiments and Policy
Evaluations.” Journal of Economic Perspectives 25 (3): 17–38.
PNUD (Programa de las Naciones Unidas para el Desarrollo). 2009. Handbook on
Planning, Monitoring and Evaluating for Development Results. Nueva York:
PNUD.
University of Wisconsin - Extension. 2010. “Enhancing Program Performance with
Logic Models.” Curso en línea. Disponible en http://www.uwex.edu/ces/pdande
/evaluation/evallogicmodel.html.
Vermeersch, C., E. Rothenbühler y J. Sturdy. 2012. “Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child
Health.” Washington, D.C.: Banco Mundial. Disponible en www.worldbank.org
/health/impactevaluationtoolkit.
CÓMO EVALUAR
La parte 3 comienza indicando cómo usar las reglas de operación del programa,
esto es: los recursos disponibles de un programa, los criterios para la selección
de beneficiarios, y el plazo de implementación, como base para seleccionar
un método de evaluación de impacto. Allí se presenta un marco sencillo para
determinar cuál de las metodologías de evaluación de impacto expuestas en la
parte 2 es más conveniente para un determinado programa, en función de sus
normas operativas.
CAPÍTULO 3
Inferencia causal y
contrafactuales
Inferencia causal
= (Y | P = 1) − (Y | P = 0)
Beneficiario/a Clon
6 caramelos 4 caramelos
Impacto = 6 – 4 = 2 caramelos
Tratamiento Comparación
Impacto = 6 – 4 = 2 caramelos
1.100 A
Producción de arroz (kg por ha)
Cambio observado
Contrafactual C C? = 100
Contrafactual B
1.000 B
Contrafactual D
D?
Año 0 Año 1
Regresión lineal
Regresión lineal multivariante
Impacto estimado en el
gasto en salud de los −6,65** −6,71**
hogares (en US$) (0,23) (0,23)
Pregunta HISP 1
Con una simple regresión lineal de los gastos en salud en una variable
indicativa de si un hogar se inscribió o no en el programa, es posible
encontrar un impacto estimado de US$ -14,46, es decir, que el programa
ha disminuido el promedio de gastos de salud en US$14,46. Sin embargo,
cuando se controla por todas las demás características de los datos, se
estima que el programa ha reducido los gastos en salud en US$ 9,98 al año.
Pregunta HISP 2
A. ¿Este análisis controla por todos los factores que determinan las dife-
rencias en gastos en salud entre los dos grupos?
B. Sobre la base de los resultados producidos por el método de inscripción-
no inscripción, ¿debería ampliarse el HISP al nivel nacional?
Recursos adicionales
Para material complementario del libro y para otros hipervínculos de recursos,
se recomienda ver el sitio web de la Evaluación de Impacto en la Práctica
(http://www.worldbank.org/ieinpractice).
Notas
1. Usamos el Modelo Causal de Rubin como marco para la inferencia causal.
2. Esta condición se relajará en algunos métodos de evaluación de impacto que, en
cambio, requerirán que el cambio promedio en los resultados (tendencias) sea el
mismo en ausencia del programa.
3. Se supone que ningún hogar ha dejado la muestra en esos dos años (hay un
desgaste cero de la muestra). Este no es un supuesto realista en la mayoría de las
encuestas de hogares. En la práctica, a veces no se puede hacer un seguimiento de
Referencias bibliográficas
Imbens, G. y D. Rubin. 2008. “Rubin Causal Model.” En: S. N. Durlauf y L. E. Blume
(eds.), The New Palgrave Dictionary of Economics (2da. edición). Nueva York:
Palgrave.
Rubin, D. 1974. “Estimating Causal Effects of Treatments in Randomized and
Non- Randomized Studies.” Journal of Educational Psychology 66 (5): 688–701.
La asignación aleatoria
La asignación aleatoria 73
Recuadro 4.1: La asignación aleatoria como un valioso instrumento operativo (continúa)
La asignación aleatoria 79
Recuadro 4.4: Asignación aleatoria de intervenciones en abastecimiento de agua y saneamiento en
zonas rurales de Bolivia (continúa)
registraron en una lista. Las comunidades misma lista ordenada de forma aleatoria
que quedaron al comienzo de la lista se para asignar un futuro financiamiento
asignaron al grupo de tratamiento. Cada después de completar la evaluación. De
concurso fue monitoreado por un notario esta manera, ninguna comunidad quedaría
público independiente, que posteriormente marginada de la intervención debido
registró y certificó los resultados, lo que únicamente a los objetivos de la evaluación, concedió
un nivel adicional de legitimidad al pero existiría un grupo de comparación proceso. En el
caso de las comunidades que mientras las limitaciones presupuestarias quedaron fuera del
programa, los gobiernos restringieran el número de proyectos en municipales se
comprometieron a utilizar la cada municipalidad.
Validez
La selección aleatoria
externa
conserva las características
Muestra de evaluación
La asignación aleatoria 81
se detalló más arriba, la selección de una muestra aleatoria de la población
de unidades elegibles para formar la muestra de evaluación conserva las
características de la población de las unidades elegibles. Dentro de la mues-
tra, la asignación aleatoria de individuos a los grupos de tratamiento y
comparación también conserva dichas características. En el capítulo 15 se
abordarán otros aspectos del muestreo.
Tratamiento
No elegible Elegible
La asignación aleatoria 87
De otra manera, puede que el evaluador se vea tentado de usar una regla
basada en los números aleatorios que ve, lo que invalidaría la asignación
aleatoria.
La lógica en que se fundamenta el proceso automatizado no es diferente
de la asignación aleatoria basada en lanzar una moneda o extraer nombres
de un sombrero. Se trata de un mecanismo que asigna al azar si cada unidad
pertenece al grupo de tratamiento o de comparación.
Al utilizar un sorteo público, dados o números al azar generados por
computador, es importante documentar el proceso para asegurar que sea
transparente. En primer lugar, eso significa que la regla de asignación debe
decidirse con antelación y comunicarse al público. En segundo lugar, el eva-
luador debe ceñirse a la regla una vez que se extraen los números al azar. En
tercer lugar, debe demostrarse que el proceso era realmente aleatorio. En el
caso de los sorteos y el lanzamiento de dados, se puede grabar el proceso en
video; la asignación mediante números al azar generados por computador
requiere que se presente un registro de los cómputos, de modo que el pro-
ceso pueda ser auditado.5
La asignación aleatoria 91
requerirá identificar un grupo de pueblos que sean lo más parecidos
posible a los 100 pueblos del tratamiento en todos los sentidos, con la
excepción de que un grupo participó en el HISP y el otro no. Dado que
el HISP se implementó como plan piloto, y que los 100 pueblos de
tratamiento fueron seleccionados de forma aleatoria entre los pueblos
rurales en todo el país, usted observa que los pueblos del tratamiento
deberían, en promedio, tener las mismas características que los pue-
blos rurales no tratados en todo el país. Por lo tanto, se puede estimar
el contrafactual de una manera válida, midiendo los gastos en salud de
los hogares elegibles en los pueblos rurales que no participaron del
programa.
Afortunadamente, en el momento de las encuestas de línea de base y
de seguimiento, se recopilaron datos de otros 100 pueblos rurales a los
que no se ofreció el programa. Esos 100 pueblos también fueron selec-
cionados de manera aleatoria entre la población de los pueblos rurales
en el país. Por lo tanto, la manera en que fueron escogidos los dos gru-
pos de pueblos garantiza que tienen características estadísticamente
idénticas, excepto que los 100 pueblos de tratamiento se inscribieron
en el HISP y los 100 pueblos del grupo de comparación no fueron
destinatarios del programa. Se ha producido una asignación aleatoria
del tratamiento.
Dada la asignación aleatoria del tratamiento, usted confía en que
ningún factor externo, excepto el HISP, explicaría las diferencias en los
resultados entre los pueblos de tratamiento y de comparación. Para
validar este supuesto, usted comprueba si los hogares elegibles en los
pueblos de tratamiento y comparación tienen características similares
en la línea de base, como se muestra en el cuadro 4.1.
Usted observa que las características promedio de los hogares en los
pueblos de tratamiento y de comparación son, de hecho, muy similares.
Las únicas diferencias estadísticamente significativas son las relativas
al número de años de escolarización del jefe de hogar y la distancia
al hospital, y esas diferencias son pequeñas (solo 0,16 años, o menos
del 6% de los años de escolarización promedio del grupo de compara-
ción, y 2,91 km, o menos del 3% de la distancia promedio al hospital del
grupo de comparación). Incluso con un experimento aleatorio en una
muestra grande, se puede esperar un pequeño número de diferencias
debido al azar y a las propiedades del test estadístico. De hecho, al
utilizar niveles de significancia estándar del 5%, podía esperarse que
alrededor del 5% de las diferencias en las características sean estadísti-
camente significativas, aunque no se esperaría que la magnitud de estas
diferencias fuese grande.
Pueblos de Pueblos de
Características tratamiento comparación
de los hogares (N = 2964) (N = 2664) Diferencia t-estadístico
Gasto en salud
(dólares de
EE.UU. anuales
per cápita) 14,49 14,57 −0,08 −0,73
Edad del jefe
de hogar (años) 41,66 42,29 −0,64 −1,69
Edad del
cónyuge (años) 36,84 36,88 0,04 0,12
Nivel de
estudios del
jefe de hogar
(años) 2,97 2,81 0,16* 2,30
Nivel de
estudios del
cónyuge (años) 2,70 2,67 0,03 0,43
Jefe de hogar
es mujer = 1 0,07 0,08 −0,01 −0,58
Jefe de hogar
es indígena = 1 0,43 0,42 0,01 0,69
Número de
miembros del
hogar 5,77 5,71 0,06 1,12
Tiene suelo de
tierra 0,72 0,73 −0,01 −1,09
Tiene baño = 1 0,57 0,56 0,01 1,04
Hectáreas de
terreno 1,68 1,72 −0,04 −0,57
Distancia a un
hospital (km) 109,20 106,29 2,91 2,57
La asignación aleatoria 93
Cuadro 4.2 Evaluación del HISP según la asignación aleatoria
(comparación de medias)
Regresión
Regresión lineal lineal multivariante
Impacto estimado sobre
el gasto en salud de los −10,14** −10,01**
hogares (0,39) (0,34)
Pregunta HISP 3
Recursos adicionales
La asignación aleatoria 95
Para un debate en profundidad sobre cómo encontrar el equilibrio entre
grupos de tratamiento y de comparación mediante la asignación aleato-
ria, véase:
➢ M. Bruhn y D. McKenzie (2009), “In Pursuit of Balance: Randomization in
Practice in Development Field Experiments.” American Economic Journal:
Applied Economics 1(4): 200–32.
Notas
1. La asignación aleatoria del tratamiento también suele denominarse ensayo
aleatorio controlado, evaluaciones aleatorias, evaluaciones experimentales y
experimentos sociales, entre otras denominaciones. Estrictamente hablando, un
experimento no tiene que identificar impactos mediante asignaciones aleatorias,
pero los evaluadores suelen utilizar el término “experimento” solo cuando la
evaluación recurre a la asignación aleatoria.
2. Nótese que esta probabilidad no necesariamente significa una probabilidad del
50% de ganar el sorteo. En la práctica, la mayoría de las evaluaciones con
asignación aleatoria darán a cada unidad elegible una probabilidad de selección
determinada, de manera que el número de ganadores (tratamientos) sea igual al
total de beneficios disponibles. Por ejemplo, si un programa tiene suficientes
fondos para servir solo a 1.000 comunidades de una población de 10.000
comunidades elegibles, cada comunidad tendrá una probabilidad de una entre
10 de ser seleccionada para el tratamiento. La potencia estadística (un concepto
analizado más en detalle en el capítulo 15) se maximizará cuando la muestra de
evaluación se divida por igual entre los grupos de tratamiento y comparación.
En el ejemplo de este caso, para un tamaño total de la muestra de 2.000
comunidades, la potencia estadística se maximizará si se seleccionan las
1.000 comunidades de tratamiento y una submuestra de 1.000 comunidades
de comparación, en lugar de tomar una muestra aleatoria simple del 20% de las
10.000 comunidades originales elegibles (lo que produciría una muestra de
evaluación de alrededor de 200 comunidades de tratamiento y 1.800
comunidades de comparación).
3. Por ejemplo, los programas de vivienda que otorgan viviendas subvencionadas
suelen utilizar los sorteos para seleccionar a los participantes del programa.
Numerosas escuelas subvencionadas en Estados Unidos seleccionan a los
postulantes mediante sorteo.
4. Además de crear grupos que tienen características promedio similares, la
asignación aleatoria también crea grupos que tienen distribuciones similares.
5. La mayoría de los programas informáticos permiten establecer un número
aleatorio para que los resultados de la asignación aleatoria sean plenamente
transparentes y replicables.
Referencias bibliográficas
Bertrand, M., B. Crépon, A. Marguerie y P. Premand. 2016. “Impacts à Court et
Moyen Terme sur les Jeunes des Travaux à Haute Intensité de Main d’oeuvre
(THIMO): Résultats de l’évaluation d’impact de la composante THIMO du
Projet Emploi Jeunes et Développement des Compétence (PEJEDEC) en Côte
d’Ivoire.” Washington, D.C.: Banco Mundial y Abidjan, BCP-Emploi.
Blattman, C., N. Fiala y S. Martínez. 2014. “Generating Skilled Self-Employment in
Developing Countries: Experimental Evidence from Uganda.” Quarterly Journal
of Economics. (doi: 10.1093/qje/qjt057.).
Bruhn, M. y D. McKenzie. 2009. “In Pursuit of Balance: Randomization in Practice
in Development Field Experiments.” American Economic Journal: Applied
Economics 1(4): 200–32.
Dupas, P. 2011. “Do Teenagers Respond to HIV Risk Information? Evidence from
a Field Experiment in Kenya.” American Economic Journal: Applied Economics
3 (1): 1–34.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Kremer, M., J. Leino, E. Miguel y A. Peterson Zwane. 2011. “Spring Cleaning: Rural
Water Impacts, Valuation, and Property Rights Institutions.” Quarterly Journal
of Economics 126: 145–205.
Kremer, M. y E. Miguel. 2004. “Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities.” Econometrica 72 (1):
159–217.
Premand, P., O. Barry y M. Smitz. 2016. “Transferts monétaires, valeur ajoutée de
mesures d’accompagnement comportemental, et développement de la petite
enfance au Niger. Rapport descriptif de l’évaluation d’impact à court terme du
Projet Filets Sociaux.” Washington, D.C.: Banco Mundial.
Schultz, P. 2004. “School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program.” Journal of Development Economics 74 (1): 199–250.
La asignación aleatoria 97
CAPÍTULO 5
El cumplimiento imperfecto
Gráfico 5.2 Estimación del efecto local promedio del tratamiento bajo
asignación aleatoria con cumplimiento imperfecto
Nunca se
inscribe
Solo se
inscribe
si es
asignado
Siempre se
inscribe
Nota: La estimación de la intención de tratar (ITT) se obtiene comparando los resultados de los
individuos asignados al grupo de tratamiento con los de aquellos asignados al grupo de comparación,
independientemente de la inscripción en la práctica. La estimación del efecto local promedio del trata-
miento (LATE) es el impacto del programa en los que se inscriben solo si son asignados al programa
(Inscritos si se lo ofrecen). La estimación LATE no proporciona el impacto del programa en aquellos
que nunca se inscriben (Nuncas) o en aquellos que siempre se inscriben (Siempres).
= impacto causal; Y = resultado.
Sin promoción
Promoción
Gráfico 5.4 Estimación del efecto local promedio del tratamiento bajo la
promoción aleatoria
Nunca
Inscrito si
es objeto
de la
promoción
Siempre
Nota: Las figuras que aparecen con el fondo sombreado corresponden a los que se inscriben.
= impacto causal; Y = resultado.
Pregunta HISP 4
A. ¿Cuáles son las condiciones clave requeridas para aceptar los resulta-
dos de la evaluación de promoción aleatoria del HISP?
B. Sobre la base de estos resultados, ¿se debería ampliar el HISP a nivel
nacional?
Recursos adicionales
Para material de apoyo del libro e hipervínculos a recursos adicionales,
se recomienda consultar el sitio web de la Evaluación de Impacto en la
Práctica (http://www.worldbank.org/ieinpractice).
Para otros recursos sobre VI, véase el portal de evaluación del Banco
Interamericano de Desarrollo (BID) (http//:www.iadb.org/portalevaluacion).
Referencias bibliográficas
Angrist, J., E. Bettinger, E. Bloom, E. King y M. Kremer. 2002. “Vouchers for Private
Schooling in Colombia: Evidence from a Randomized Natural Experiment.”
American Economic Review 92 (5): 1535–58.
Kearney, M. S. y P. B. Levine. 2015. “Early Childhood Education by MOOC: Lessons
from Sesame Street.” Documento de trabajo NBER 21229, National Bureau of
Economic Research, Cambridge, MA.
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. “An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund.” World Bank Economic Review 16 (2): 241–74.
3. La puntuación límite debe ser única para el programa de interés, es decir, Concepto clave
aparte del programa que se evalúa, no debería haber otros programas que El diseño de regresión
utilicen la misma puntuación límite. Por ejemplo, si un índice de pobreza discontinua (DRD) es un
por debajo de 50 clasifica a un hogar para recibir una transferencia de método de evaluación de
efectivo, un seguro de salud y transporte público gratis, no se podría uti- impacto adecuado para
programas que utilizan
lizar el método DRD para estimar por sí solo el impacto del programa de
un índice continuo para
transferencias de efectivo. clasificar a los
participantes potenciales
4. La puntuación de un individuo o una unidad particular no puede ser y que tienen una
manipulada por los encuestadores, los beneficiarios potenciales, los puntuación límite en el
administradores del programa o los políticos. índice que determina si
los participantes
El DRD estima el impacto en torno a la puntuación límite de elegibilidad potenciales tienen
como la diferencia entre el resultado promedio de unidades del lado tratado derecho o no a
de la puntuación límite de elegibilidad y el resultado promedio de unidades beneficiarse del
en el lado no tratado (comparación) de la puntuación límite. programa.
20
19
18
17
16
15
20 30 40 50 60 70 80
Hectáreas de terreno
20
19
A
18
17
B
A
16 = Impacto
B
15
20 30 40 50 60 70 80
Hectáreas de terreno
= producción de las fincas > 50 hectáreas
= producción de las fincas < 50 hectáreas
17 años en una media de 0,5 días al mes, lo de que la magnitud de los impactos que
cual es significativo, dado que la tasa de hallaron era en general consistente con los
asistencia ya era bastante alta (85%). programas de transferencias condicionadas Además,
las visitas a los centros de salud de implementados en otros países. Un aspecto niños de 0
a 6 años aumentaron en alrededor final interesante de esta evaluación es de un 38%.
Aunque los investigadores no que recopiló tanto datos cuantitativos pudieron encontrar
ningún impacto de más como cualitativos, utilizando sistemas de largo plazo en los logros
escolares ni en la información, entrevistas, grupos focales y condición de salud, llegaron a
la conclusión encuestas de hogares.
Porcentaje de hogares
Porcentaje de hogares
que participan
que participan 100 100
50 50
10 10
30 40 50 60 70 80 30 40 50 60 70 80
Índice de pobreza de la Índice de pobreza de la
línea de base línea de base
Porcentaje de hogares
No elegible No elegible
Elegible Elegible
20 30 40 50 60 70 80 90 20 30 40 50 60 70 80 90
Índice de pobreza de la línea de base Índice de pobreza de la línea de base
0,04
0,03
Densidad estimada
0,02
0,01
Elegible No elegible
58
0
20 40 60 80 100
Índice de pobreza de la línea de base (20–100)
1,0
Tasa de participación en el HISP
0,8
0,6
Elegible No elegible
0,4
0,2
0
20 40 60 80 100
Índice de pobreza de la línea de base (20–100)
Gráfico 6.7 Índice de pobreza y gastos en salud: el HISP dos años después
60
Gastos en salud (dólares de EE.UU.)
Elegible No elegible
40
20 A
0 58
20 40 60 80 100
Índice de pobreza de la línea de base (20–100)
Nota: Los errores estándar están entre paréntesis. ** Significativo al nivel del 1%.
Pregunta HISP 5
A. El resultado que se refleja en el cuadro 6.1, ¿es válido para todos los
hogares elegibles?
B. En comparación con el impacto estimado con la asignación aleatoria,
¿qué dice este resultado con respecto a los hogares con un índice de
pobreza justo por debajo de 58?
C. De acuerdo con las estimaciones de impacto del DRD, ¿se debería
ampliar el HISP a nivel nacional?
Otros recursos
Notas
1. En ocasiones, esto se denomina prueba de medias proxy.
2. El índice de elegibilidad continuo a veces se denomina variable forzada.
3. Nota técnica: la densidad se estimó utilizando el método de estimación univa-
riante del núcleo de Epanechnikov.
4. En este caso, se utilizaría la localización a la izquierda o la derecha del punto
límite como variable instrumental para la aceptación del programa en la
práctica en la primera etapa de una estimación de mínimos cuadrados en dos
etapas.
Diferencias en diferencias
143
El método de diferencias en diferencias
Resultado- Grupo de
tasa de comparación
empleo
D = 0,81
C = 0,78
B = 0,74
Impacto estimado = 0,11
E = 0,63
A = 0,60
Tiempo
Año –2 Año –1 Año 0 Año 1
Nota: Todas las diferencias entre los puntos deberían leerse como diferencias verticales de los
resultados en el eje vertical.
Grupo de
Resultado- comparación
tasa de
D = 0,81
empleo
C = 0,78
Contrafactual
verdadero
B = 0,74
Impacto verdadero < 0,11
A = 0,60 E = 0,63
Tiempo
Año –2 Año –1 Año 0 Año 1
Nota: El cuadro presenta el gasto medio (en dólares) en salud de los hogares inscritos y no inscri-
tos, antes y después de la introducción del HISP.
Aun cuando las tendencias sean iguales antes del comienzo de la inter-
vención, el sesgo en la estimación de diferencias en diferencias puede
producirse y pasar inadvertido. Esto se debe a que el método DD atri-
buye a la intervención cualquier diferencia de las tendencias entre los
grupos de tratamiento y de comparación que se producen desde el
momento en que la intervención comienza. Si hay otros factores presen-
tes que influyen en la diferencia en las tendencias entre los dos grupos, y
la regresión multivariante no rinde cuenta de ellos, la estimación será
inválida o sesgada.
Supóngase que se intenta estimar el impacto en la producción de arroz
con la subvención de los fertilizantes y que esto se lleva a cabo midiendo la
producción de arroz de los agricultores subvencionados (tratamiento) y de
los agricultores no subvencionados (comparación) antes y después de la dis-
tribución de las subvenciones. Si en el año 1 tiene lugar una sequía que afecta
solamente a los agricultores subvencionados, la estimación de diferencias
en diferencias producirá una estimación inválida del impacto de subvencio-
nar los fertilizantes. En general, cualquier factor que afecte a uno de los dos
grupos de forma desproporcionada, y lo hace al mismo tiempo en que el
grupo de tratamiento recibe el tratamiento, sin que esto se tome en cuenta
en la regresión, puede potencialmente invalidar o sesgar la estimación del
impacto del programa. El método DD supone que no hay factores de este
tipo presentes.
Otros recursos
• Para material de apoyo del libro y para hipervínculos de recursos adicionales,
se recomienda consultar el sitio web de la Evaluación de Impacto en la Práctica
(http://www.worldbank.org/ieinpractice).
• Para más referencias sobre los supuestos no dichos de las diferencias en dife-
rencias, véase la entrada correspondiente en el blog de Impacto del Desarrollo
del Banco Mundial (http://blogs.worldbank.org/impactevaluations).
Referencias bibliográficas
De Janvry, A., F. Finan y E. Sadoulet. 2011. “Local Electoral Incentives and Dec-
entralized Program Performance.” The Review of Economics and Statistics 94
(3): 672–85.
Pareamiento
El método que se describe en este capítulo consiste en técnicas estadísti- Concepto clave
cas a las que se denominarán pareamiento (matching). Los métodos de El pareamiento utiliza
pareamiento se pueden aplicar en el contexto de casi todas las reglas de grandes bases de datos
asignación de un programa, siempre que se cuente con un grupo que no y técnicas estadísticas
haya participado en el mismo. El pareamiento utiliza técnicas estadísticas para construir el mejor
grupo de comparación
para construir un grupo de comparación. Para cada unidad posible, el tra-
posible sobre la base
tamiento intenta encontrar una unidad de no tratamiento (o conjunto de de características
unidades de no tratamiento) que tengan características lo más parecidas observables.
posible. Piénsese en un caso en el que se propone evaluar el impacto de
un programa de capacitación laboral sobre el ingreso y se cuenta con una
base de datos, como los registros de ingreso y las declaraciones tributarias,
que contiene tanto a los individuos que se inscribieron en el programa
como a los individuos que no lo hicieron. El programa que se intenta eva-
luar no tiene reglas de asignación claras (como asignación aleatoria o un
índice de elegibilidad) que explique por qué ciertos individuos se inscri-
bieron en el programa y otros no lo hicieron. En este contexto, los méto-
dos de pareamiento permitirán identificar el conjunto de individuos no
inscritos que más se parece a los individuos tratados, a partir de las carac-
terísticas que ya se tienen en la base de datos. Estos individuos no
159
inscritos pareados luego se convierten en el grupo de comparación que se
emplea para estimar el contrafactual.
La búsqueda de una buena pareja para cada participante del programa
requiere aproximarse todo lo posible a las características que explican la
decisión del individuo de inscribirse en el programa. Desafortunadamente,
en la práctica esto es más difícil. Si la lista de características observables rele-
vantes es muy grande, o si cada característica adopta muchos valores, puede
que sea complicado identificar una pareja para cada una de las unidades del
grupo de tratamiento. A medida que aumenta el número de características o
dimensiones con las que se quiere parear las unidades que se inscribieron en
el programa, puede que uno se encuentre con lo que se denomina la maldición
de la dimensionalidad. Por ejemplo, si solo se consideran tres características
importantes para identificar el grupo de comparación del pareamiento, como
la edad, el sexo y si la persona tiene un diploma de estudios secundarios, es
probable que se encuentren parejas para todos los participantes que se inscri-
bieron en el programa entre el conjunto de aquellos que no se inscribieron
(los no inscritos), pero se corre el riesgo de dejar al margen otras característi-
cas potencialmente importantes. Sin embargo, si se aumenta la lista de carac-
terísticas –por ejemplo, para incluir el número de hijos, el número de años de
estudios, el número de meses que el individuo lleva desempleado, el número
de años de experiencia, etc.– puede que la base de datos no contenga una
buena pareja para la mayoría de los participantes del programa que están
inscritos, a menos que abarque un número muy grande de observaciones. El
gráfico 8.1 ilustra el pareamiento sobre la base de cuatro características: edad,
sexo, meses de desempleo, y diploma de estudios secundarios.
Pareamiento 161
tratamiento, o inscrito, y el resultado promedio del subgrupo de unidades
estadísticamente pareadas, donde el pareamiento se basa en características
observables en los datos disponibles.
Para que el pareamiento por puntajes de propensión produzca estimacio-
nes del impacto de un programa para todas las observaciones tratadas, cada
unidad de tratamiento o inscrita debe parearse con una unidad no inscrita.2
Sin embargo, en la práctica puede ocurrir que, para algunas unidades inscri-
tas, no haya unidades en el conjunto de no inscritos que tengan puntajes de
propensión similares. En términos técnicos, puede que se produzca una
falta de rango común, o falta de superposición, entre los puntajes de propen-
sión del grupo de tratamiento o inscrito y los del conjunto de no inscritos.
El gráfico 8.2 representa un ejemplo de la falta de rango común. En
primer lugar, se estima la probabilidad de que cada unidad de la muestra se
inscriba en el programa a partir de las características observables de esa
unidad, es decir, el puntaje de propensión. El gráfico muestra la distribución
de los puntajes de propensión por separado para los inscritos y no inscritos.
El problema es que estas distribuciones no se superponen perfectamente.
En el medio de la distribución, es relativamente fácil encontrar las parejas
porque hay tanto inscritos como no inscritos con estos niveles de puntajes
de propensión. Sin embargo, los inscritos con puntajes de propensión cerca-
nos a 1 no se pueden parear con ningún no inscrito porque no hay no inscri-
tos con puntajes de propensión tan altos. Hay tan poca similitud entre las
unidades que tienen muchas probabilidades de inscribirse en el programa y
No inscritos Inscritos
Densidad
Rango común
0 Puntaje de propensión 1
Pareamiento 165
Recuadro 8.1: Diferencias en diferencias pareadas: caminos rurales y desarrollo del mercado local en
Vietnam (continúa)
potencial, los investigadores utilizaron dife- actividades agrícolas a actividades más rencias
en diferencias para estimar el cam- relacionadas con los servicios, como la bio en
las condiciones del mercado local. confección de ropa y las peluquerías. Sin
Dos años después de iniciado el pro- embargo, los resultados variaban considera-
grama, los resultados indicaron que la blemente entre las comunas. En las más
rehabilitación de caminos produjo impactos pobres, los impactos tendían a ser mayores
positivos significativos en la presencia y debido a los menores niveles de desarrollo
la frecuencia de los mercados locales y en la inicial del mercado. Los investigadores lle-
disponibilidad de servicios. En las comu- garon a la conclusión de que los proyectos
nas de tratamiento se desarrolló un 10%de mejora de caminos pequeños pueden más
de nuevos mercados que en las comu- tener impactos más importantes si se foca-
nas de comparación. En las primeras era lizan en zonas con un desarrollo de mercado
más habitual que los hogares cambiaran de inicialmente bajo.
las estimaciones del efecto de la intención madres, que declararon un aumento del
de tratar. Con la oferta de un piso de 59% en la satisfacción con la vivienda, un
cemento como variable instrumental para incremento del 69% en la satisfacción con
determinar si los hogares tenían realmente la calidad de vida, una reducción del 52%
suelos de cemento encontraron que el en la escala de evaluación de la depresión
programa producía una reducción del y una disminución del 35% en una escala
18,2% de la presencia de parásitos, una de evaluación del estrés percibido.
disminución del 12,4% de la prevalencia Cattaneo et al. (2009) concluyeron que
de casos de diarrea y una baja del 19,4% Piso Firme tiene un impacto absoluto mayor
de la prevalencia de anemia. Además, en el desarrollo cognitivo infantil con un
pudieron utilizar la variabilidad en el total costo menor que el programa de transferen-
del espacio del suelo realmente recubierto cias condicionadas de efectivo a gran escala
de cemento para predecir que una com- de México, Progresa-Oportunidades, y que
pleta sustitución de los pisos de tierra por otros programas comparables de suplemen-
pisos de cemento en un hogar produciría tos nutricionales y estimulación cognitiva
una reducción del 78% de las infecciones temprana. Los pisos de cemento también
parasitarias, una disminución del 59% de evitan mejor la proliferación de infecciones
los casos de diarrea, una reducción del parasitarias que el tratamiento habitual de
81% de la anemia y una mejora del 36% al eliminación de parásitos. Los autores afir-
96% en el desarrollo cognitivo de los man que los programas para reemplazar los
niños. Los autores también recopilaron suelos de tierra con suelos de cemento tie-
datos sobre el bienestar de los adultos y nen probabilidades de mejorar la salud de
llegaron a la conclusión de que los pisos los niños de manera costo-efectiva en con-
de cemento hacen más felices a las textos similares.
Todo el Conjunto
conjunto de limitado de
variables variables
Variable dependiente: inscritos = 1 explicativas explicativas
Nota: Regresión probit. La variable dependiente equivale a 1 si el hogar está inscrito en el HISP y 0
en caso contrario. Los coeficientes representan la contribución de cada variable explicativa a la
probabilidad de que un hogar se inscriba en el HISP.
Nivel de significancia: * = 5%; ** = 1%.
Pareamiento 169
aumentan la probabilidad de que un hogar se inscriba en el programa.
Por lo tanto, en general, parecería que los hogares más pobres y con
menor nivel educativo tienen más probabilidades de inscribirse, lo cual
es una buena noticia para un programa que se focaliza en las personas
pobres.
Ahora que el software ha estimado la probabilidad de que todos los
hogares se inscriban en el programa (el puntaje de propensión), se veri-
fica la distribución del puntaje de propensión para los hogares de compa-
ración inscritos y pareados. El gráfico 8.3 muestra que el rango común
(cuando se utiliza todo el conjunto de variables explicativas) se extiende
por toda la distribución del puntaje de propensión. De hecho, ninguno de
los hogares inscritos queda marginado de la zona de rango común. En
otras palabras, se puede encontrar un hogar de comparación como pareja
para cada uno de los hogares inscritos.
3
Densidad
0
0 ,2 ,4 ,6
Puntaje de propensión
No inscritos Inscritos
Nota: Este cuadro compara los gastos en salud promedio de los hogares en los hogares inscritos
y las parejas de hogares de comparación.
Pareamiento 171
hogares de comparación pareados; se computa la diferencia en los gastos
en salud de los hogares en la línea de base entre los hogares inscritos y las
parejas de comparación; y luego se calcula la diferencia entre estas dos
diferencias. El cuadro 8.4 muestra el resultado de este enfoque de dife-
rencias en diferencias pareadas.
Comparaciones
pareadas
utilizando el
conjunto de
variables
Inscritos explicativas Diferencia
Gastos en Seguimiento 7,84 17,79 −9,95
salud de los Línea de base
14,49 15,03 0,54
hogares
(US$) Diferencias
en
diferencias
pareadas
=−9,41**
(0,19)
Nota: Los errores estándar están entre paréntesis y el cálculo se realizó utilizando una
regresión lineal.
Nivel de significancia: ** = 1%.
Pregunta HISP 7
A. ¿Cuáles son los supuestos básicos necesarios para aceptar estos resul-
tados sobre la base del método de pareamiento?
B. ¿Por qué los resultados del método de pareamiento son diferentes si se
utiliza todo el conjunto vs. el conjunto limitado de variables
explicativas?
C. ¿Qué sucede cuando se compara el resultado del método de parea-
miento con el resultado de la asignación aleatoria? ¿Por qué los resul-
tados son tan diferentes en el pareamiento con un conjunto limitado
de variables explicativas? ¿Por qué el resultado es más parecido
cuando se realiza el pareamiento en todo el conjunto de variables
explicativas?
D. A partir del resultado del método de pareamiento, ¿debería ampliarse
el HISP a escala nacional?
Pareamiento 173
unidades de la línea de base y luego emparejar el grupo tratado con un grupo
de comparación empleando esas características deducidas, puede empare-
jar involuntariamente basándose en características que también fueron
afectadas por el programa; en ese caso, el resultado de estimación sería invá-
lido o estaría sesgado.
Por el contrario, cuando se dispone de datos de línea de base, el parea-
miento basado en las características básicas puede ser muy útil si se
combina con otras técnicas, como el método de diferencias en diferen-
cias, lo que permite corregir por las diferencias entre los grupos que son
fijas a lo largo del tiempo. El pareamiento también es más fiable cuando
se conocen las reglas de asignación del programa y las variables funda-
mentales, en cuyo caso el pareamiento se puede llevar a cabo con esas
variables.
A estas alturas, es probable que quede claro que las evaluaciones de
impacto se diseñan mejor antes de que un programa comience a ser imple-
mentado. Una vez que el programa ha comenzado, si hay que influir en cómo
se asigna y no se han recopilado datos de línea de base, habrá pocas o ninguna
opción rigurosa para la evaluación de impacto.
Verificación: el pareamiento
Notas
1. Nota técnica: en la práctica, se utilizan muchas definiciones de lo que constituye
la unidad más próxima o cercana para llevar a cabo un pareamiento. Las
unidades de control más cercanas se pueden definir sobre la base de una
estratificación del puntaje de propensión –la identificación de los vecinos más
próximos de la unidad de tratamiento, considerando la distancia, dentro de un
determinado radio– o utilizando técnicas de núcleo. Se considera una buena
práctica verificar la robustez de los resultados del pareamiento empleando
diversos algoritmos de pareamiento. Para más detalles, véase Rosenbaum
(2002).
2. En este libro, el análisis del pareamiento se centra en un pareamiento de uno a
uno. No se analizarán otros tipos de pareamiento, como el de uno a varios o el de
reemplazo/sin reemplazo. Sin embargo, en todos los casos el marco conceptual
descrito aquí seguiría vigente.
3. En Rosenbaum (2002) se puede encontrar un análisis detallado del parea-
miento.
4. Nota técnica: cuando las puntuaciones de propensión de las unidades inscritas
no están plenamente cubiertas por el área de rango común, los errores estándar
deberían estimarse utilizando un muestreo autodocimante en lugar de una
regresión lineal.
5. Para los lectores que tienen conocimientos de econometría, esto significa que la
participación es independiente de los resultados, dadas las características
básicas utilizadas para realizar el pareamiento.
Referencias bibliográficas
Abadie, A. y J. Gardeazábal. 2003. “The Economic Costs of Conflict: A Case Study
of the Basque Country.” American Economic Review 93 (1): 113–32.
Cattaneo, M. D., S. Galiani, P. J. Gertler, S. Martínez y R. Titiunik. 2009. “Housing,
Health, and Happiness.” American Economic Journal: Economic Policy 1 (1):
75–105.
Pareamiento 175
Heinrich, C., A. Maffioli y G. Vázquez. 2010. “A Primer for Applying Propensity-
Score Matching. Impact-Evaluation Guidelines.” Nota técnica del BID-TN-161.
Washington, D.C.: BID.
Jalan, J. y M. Ravallion. 2003. “Estimating the Benefit Incidence of an Antipoverty
Program by Propensity-Score Matching.” Journal of Business & Economic
Statistics 21 (1): 19–30.
Mu, R. y D. Van de Walle. 2011. “Rural Roads and Local Market Development in
Vietnam.” Journal of Development Studies 47 (5): 709–34.
Rosenbaum, P. 2002. Observational Studies (2da. edición), Springer Series in
Statistics. Nueva York: Springer-Verlag.
Rosenbaum, P. y D. Rubin. 1983. “The Central Role of the Propensity Score in
Observational Studies of Causal Effects.” Biometrika 70 (1): 41–55.
1. Desde un punto de vista técnico, no es deseable que una gran parte del
grupo de comparación se inscriba en el programa. A medida que
aumenta la proporción del grupo de comparación que se inscribe en el
programa, la fracción de “cumplidores” en la población disminuirá, y el
efecto local promedio del tratamiento estimado con el método de varia-
ble instrumental será válido solo para una fracción cada vez más
pequeña de la población de interés. Si esto se extiende demasiado, puede
que los resultados pierdan toda relevancia para las políticas, dado que ya
no serían aplicables a una parte suficientemente grande de la población
de interés.
El efecto de derrame
Los derrames (o efectos de derrame) son otro problema habitual a los que se
enfrentan las evaluaciones, sea que se aplique el método de asignación alea-
toria, el de diseño de regresión discontinua o el de diferencias en diferen-
cias. Un derrame se produce cuando una intervención afecta a un no
Cómo abordar las dificultades metodológicas 181
participante, y puede ser positivo o negativo. Hay cuatro tipos de efectos de
derrame, según Angelucci y Di Maro (2015):
t
Escuela
Escuela B
Zona de externalidades
del tratamiento
antiparasitario
Escuela
las unidades que reciben el tratamiento? Se trata del impacto directo que
el programa tiene en los grupos tratados.
2. Una segunda pregunta sobre la evaluación del impacto indirecto. ¿Cuál es
el impacto (o efecto causal) de un programa en un resultado de interés en
las unidades que no reciben el tratamiento? Se trata del impacto indirecto
que el programa tiene en los grupos no tratados.
Para estimar el impacto directo en los grupos tratados, habrá que elegir el
grupo de comparación de tal manera que no se vea afectado por los derra-
mes. Por ejemplo, puede ponerse como condición que los pueblos, clínicas u
hogares de tratamiento y comparación estén situados lo suficientemente
lejos unos de otros de manera que los derrames sean poco probables.
Para estimar el impacto indirecto en los grupos no tratados, debería iden-
tificarse para cada grupo no tratado un grupo de comparación adicional que
186 La evaluación de impacto en la práctica
pueda verse afectado por los derrames. Por ejemplo, los trabajadores comu-
nitarios de la salud pueden realizar visitas domiciliarias para proporcionar
información a los padres acerca de los beneficios de una dieta variada mejo-
rada para los niños. Supóngase que los trabajadores comunitarios de la salud
solo visitan algunos hogares de un pueblo determinado. Uno puede estar
interesado en los efectos de derrame sobre los niños de los hogares no visita-
dos, en cuyo caso necesitaría hallar un grupo de comparación para estos
niños. Al mismo tiempo, puede ser que la intervención también afecte la
variedad de la dieta de los adultos. Si tal efecto indirecto es de interés para la
evaluación, se necesitaría también un grupo de comparación para los adul-
tos. A medida que aumente el número de canales potenciales de derrame, el
diseño puede complicarse con relativa rapidez.
Las evaluaciones con efectos de derrame plantean ciertos problemas
específicos. Por ejemplo, cuando los efectos de derrame son probables, es
importante entender el mecanismo de derrame, ya sea biológico, social,
ambiental o de otro tipo. Si no se sabe cuál es el mecanismo de derrame, no
será posible elegir con precisión los grupos de comparación que son y no son
afectados por los derrames. En segundo lugar, una evaluación con efectos de
derrame requiere una recopilación de datos más amplia que una evaluación
en la cual esa preocupación no existe: hay un grupo de comparación adicio-
nal (en el ejemplo anterior, los pueblos vecinos). Puede que también tengan
que recopilarse datos sobre las otras unidades (en el ejemplo anterior, los
adultos de los hogares objetivo para visitas relacionadas con la nutrición de
los niños). En el recuadro 9.4 se analiza cómo los investigadores manejaron
los efectos de derrame en una evaluación de un programa de transferencias
condicionadas en México.
El desgaste
El sesgo del desgaste es otro problema habitual que afecta a las evaluaciones,
ya sea con el método de asignación aleatoria, de regresión discontinua o de
diferencias en diferencias. El desgaste se produce cuando partes de la mues-
tra “desaparecen” a lo largo del tiempo y los investigadores no pueden
encontrar a todos los miembros iniciales de los grupos de tratamiento y
comparación en las encuestas o en los datos de seguimiento. Por ejemplo, de
los 2.500 hogares encuestados en la línea de base, los investigadores pueden
encontrar solo 2.300 en una encuesta de seguimiento dos años después. Si
intentan volver a realizar la encuesta al mismo grupo, por ejemplo, 10 años
después, puede que encuentren incluso menos hogares originales.
El desgaste se puede producir por diferentes motivos. Por ejemplo, puede
que los miembros de los hogares o incluso familias enteras se muden a otro
pueblo, ciudad, región, o incluso país. En un ejemplo reciente, una encuesta de
seguimiento realizada 22 años después en Jamaica indicó que el 18% de la
188 La evaluación de impacto en la práctica
muestra había emigrado (véase el recuadro 9.5). En otros casos, los encues-
tados ya no estaban dispuestos a responder a una segunda encuesta. También
ocurrió que los conflictos y la falta de seguridad en la zona impidieron que
el equipo de investigación llevara a cabo una encuesta en algunas localida-
des incluidas en la línea de base.
Loscanalesdetransmisiónentreinsumos,actividades,productosyresultados
pueden tener lugar de inmediato, pronto o después de un período de tiempo,
y suelen estar estrechamente relacionados con los cambios en el comporta-
miento humano. En el capítulo 2 se ponía de relieve la importancia de pensar
en estos canales y planificar correspondientemente antes de que comenzara
la intervención, así como de desarrollar una cadena causal clara para el pro-
grama que se esté evaluando. En aras de la sencillez, nos hemos abstraído de
los problemas relacionados con la programación en el tiempo. Sin embargo, es
fundamental considerar estos aspectos cuando se diseña una evaluación.
En primer lugar, los programas no necesariamente se vuelven plenamente
efectivos justo después de su inicio (King y Behrman, 2009). Los administra-
dores de un programa necesitan tiempo para que éste comience a funcionar,
y puede ser que los beneficiarios no vean los frutos de inmediato porque los
cambios de conducta requieren tiempo, y puede ser que las instituciones tam-
poco modifiquen su comportamiento con rapidez. Por otro lado, una vez que
las instituciones y los beneficiarios cambian ciertas conductas, puede ocurrir
que estas se mantengan aun cuando se suspenda el programa. Por ejemplo,
un programa que incentiva a los hogares a separar y reciclar la basura y aho-
rrar energía puede seguir siendo efectivo después de que se eliminen los
incentivos, si consigue cambiar las normas de los hogares en el manejo de la
basura y la energía. Cuando se diseña una evaluación, hay que tener mucho
cuidado (y ser realistas) para definir cuánto podría tardar el programa en
alcanzar su plena efectividad. Puede que sea necesario llevar a cabo diversas
encuestas de seguimiento para medir el impacto del programa a lo largo del
tiempo, o incluso después de que el programa se interrumpa. El recuadro 9.6
presenta el caso de una evaluación donde algunos efectos solo se hicieron
visibles después de suspendida la intervención inicial.
Un año después, todos los hogares en un sub- ITN se ofreció gratis, la tasa de adopción
conjunto de pueblos tuvieron la oportunidad de aumentó al 98%. A largo plazo, las tasas de
comprar la misma red. Esto permitió a los adopción más altas se tradujeron en una
investigadores medir la disponibilidad de los mayor disponibilidad a pagar, dado que los
hogares a pagar por las ITN y cómo esta dispo- hogares vieron los beneficios de tener una
nibilidad cambiaba en función del subsidio reci- ITN. Aquellos que recibieron uno de los
bido en la primera fase del programa. subsidios más grandes en la primera fase
En general, los resultados indicaron tenían tres veces más probabilidades de
que un subsidio único tenía impactos comprar otra ITN en la segunda fase a más
significativamente positivos en la adopción del doble del precio.
de ITN y la disponibilidad para pagar a largo Los resultados de este estudio implican
plazo. En la primera fase del experimento, que se produce un efecto de aprendizaje en
Dupas observó que los hogares que recibían las intervenciones en ITN. Esto señala que
un subsidio que reducía el precio de la ITN es importante considerar los impactos de
de US$3,80 a US$0,75 tenían un 60% más las intervenciones a largo plazo, así como
de probabilidades de comprarla. Cuando la dar a conocer la persistencia de los efectos.
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos a más
recursos, se recomienda consultar el sitio web de la Evaluación de Impacto en
la Práctica (http://www.worldbank.org/ieinpractice).
Nota
1. Un método estadístico más avanzado sería estimar “límites nítidos” en los
efectos del tratamiento (véase Lee, 2009).
Referencias bibliográficas
Angelucci, M. y G. De Giorgi. 2009. “Indirect Effects of an Aid Program: How Do
Cash Transfers Affect Ineligibles’ Consumption.” American Economic Review
99 (1): 486–508.
Angelucci, M. y V. Di Maro. 2015. “Programme Evaluation and Spillover Effects.”
Journal of Development Effectiveness (doi: 10.1080/19439342.2015.1033441).
Evaluación de programas
multifacéticos
Hasta ahora, se han analizado programas con un solo tipo de tratamiento. Sin
embargo, muchas cuestiones relevantes relacionadas con las políticas se plan-
tean en programas multifacéticos, es decir, que combinan varias opciones de
tratamiento.1 Los responsables de formular políticas pueden estar interesa-
dos en saber no solo si el programa funciona o no, sino también si funciona
mejor o tiene un costo menor que otro programa. Por ejemplo, si se quiere
aumentar la asistencia a la escuela, ¿es más eficaz orientar las intervenciones
a la demanda (como las transferencias condicionadas a las familias) o a la
oferta (como mayores incentivos para los profesores)? Y si se introducen las
dos intervenciones conjuntamente, ¿funcionan mejor que cada una por su
cuenta?, ¿son complementarias? Si la costo-efectividad es una prioridad,
puede preguntarse perfectamente cuál es el nivel óptimo de los servicios que
debe prestar el programa. Por ejemplo, ¿cuál es la duración óptima de un pro-
grama de capacitación para el empleo? ¿Un programa de seis meses contri-
buye más que un programa de tres meses a que los participantes encuentren
empleo? De ser así, ¿la diferencia es lo suficientemente grande para justificar
los recursos adicionales necesarios para un programa de seis meses? Por
último, a los responsables de políticas les puede interesar cómo alterar un
195
programa existente para hacerlo más efectivo, y quizá quieran probar diversos
mecanismos con el fin de encontrar cuál(es) funciona(n) mejor.
Además de estimar el impacto de una intervención sobre un resultado de
interés, las evaluaciones de impacto pueden ayudar a responder preguntas
más generales, como las siguientes:
• ¿Cuál es el impacto de un tratamiento en comparación con otro? Por
ejemplo, ¿cuál es el impacto en el desarrollo cognitivo de los niños de un
programa que ofrece capacitación a los padres, en comparación con una
intervención sobre nutrición?
• ¿El impacto conjunto de un primer y un segundo tratamiento es mayor que
la suma de los dos impactos? Por ejemplo, ¿el impacto de la intervención de
capacitación de padres y la intervención sobre nutrición es mayor, menor o
igual que la suma de los efectos de cada una de las intervenciones?
• ¿Cuál es el impacto de un tratamiento de alta intensidad en comparación
con un tratamiento de menor intensidad? Por ejemplo, ¿cuál es el efecto
en el desarrollo cognitivo de niños con retraso en el crecimiento si un
trabajador social los visita en su casa cada dos semanas, en lugar de visi-
tarlos una vez al mes?
Este capítulo ofrece ejemplos de diseños de evaluaciones de impacto para dos
tipos de programas multifacéticos: los que tienen múltiples niveles del mismo
tratamiento y los que tienen múltiples tratamientos. Primero se analiza cómo
diseñar una evaluación de impacto de un programa con varios niveles de tra-
tamiento. Después, se examinan los diferentes tipos de impactos de un pro-
grama con múltiples tratamientos. Para este análisis se supone que se usará un
método de asignación aleatoria, aunque puede generalizarse a otros métodos.
No elegible Elegible
Frecuencia del
Grupo Tipo de mensaje mensaje Nº de pacientes
1 Solo recordatorio Semanal 73
2 Recordatorio + aliento Semanal 74
3 Solo recordatorio Diario 70
4 Recordatorio + aliento Diario 72
5 Ninguno (grupo de comparación) Ninguna 139
No elegible Elegible
Intervención 1
Tratamiento Comparación
Grupo A Grupo C
Tratamiento
Intervención 2
Grupo B Grupo D
Comparación
Notas
1. Véase Banerjee y Duflo (2009), para un análisis más detallado.
2. Nótese que, en la práctica, es posible combinar los tres sorteos separados en uno
solo y alcanzar el mismo resultado.
3. Probar el impacto de múltiples intervenciones también tiene una implicación
más sutil: a medida que se incrementa el número de intervenciones o niveles de
tratamiento que se contrastan unos con otros, se aumenta la probabilidad de
encontrar un impacto en al menos una de las pruebas, aunque no haya impacto.
En otras palabras, hay más probabilidades de encontrar un falso positivo. Para
evitar esto, se deben ajustar las pruebas estadísticas de modo de dar cuenta de
las pruebas de hipótesis múltiples. Los falsos positivos también se denominan
errores de tipo II. Véase el capítulo 15 para más información sobre los errores de
tipo II y referencias sobre las pruebas de hipótesis múltiples.
Referencias bibliográficas
Banerjee, A. y E. Duflo. 2009. “The Experimental Approach to Development
Economics.” Annual Review of Economics 1: 151–78.
Olken, B. 2007. “Monitoring Corruption: Evidence from a Field Experiment in
Indonesia.” Journal of Political Economy 115 (2): 200–249.
Pop-Eleches, C., H. Thirumurthy, J. Habyarimana, J. Zivin, M. Goldstein, D. de
Walque, L. MacKeen, J. Haberer, S. Kimaiyo, J. Sidle, D. Ngare y D. Bangsberg.
2011. “Mobile Phone Technologies Improve Adherence to Antiretroviral
Treatment in a Resource-Limited Setting: A Randomized Controlled Trial of
Text Message Reminders.” AIDS 25 (6): 825–34.
CÓMO IMPLEMENTAR
UNA EVALUACIÓN DE
IMPACTO
En el capítulo 11 se describe cómo usar las reglas operativas del programa como
base para elegir un método de evaluación de impacto, a saber: los recursos
de que dispone un programa, el criterio para seleccionar a los beneficiarios y
el calendario de la implementación. Se establece un marco de trabajo sencillo
para determinar cuál de las metodologías de evaluación de impacto presenta-
das en la segunda parte es la más adecuada para un determinado programa, de
acuerdo con sus reglas operativas. El capítulo también trata de cómo el mejor
método es el que requiere los supuestos más débiles y tiene la menor cantidad
de requisitos de datos en el contexto de las reglas operativas.
Elección de un método de
evaluación de impacto
207
“causados” por la intervención. En general, se prefiere el método que
requiere los supuestos más débiles y tiene la menor cantidad de requisi-
tos de datos en el contexto de las reglas operativas.
Por último, se examina cómo elegir la unidad de intervención. Por
ejemplo, ¿el programa se asignará a nivel individual, o a un nivel superior,
como las comunidades o los distritos? En general, conviene elegir la uni-
dad de intervención factible más pequeña dentro de las limitaciones
operativas.
Concepto clave Uno de los principales mensajes de este libro es que se pueden usar las
Las reglas operativas reglas operativas de un programa para encontrar grupos de comparación
de un programa válidos, en la medida en que las reglas operativas del programa estén bien
determinan qué definidas. De hecho, dichas reglas brindan orientación en cuanto al método
método de evaluación
más adecuado para evaluar ese programa concreto. Las reglas operativas del
de impacto es el más
adecuado para evaluar programa son las que pueden y deben regir en el método de evaluación, no a
el programa, no a la la inversa. La evaluación no debería cambiar drásticamente elementos clave
inversa. de las reglas de asignación del programa bien definidas en aras de un diseño
de evaluación más claro.
Las reglas operativas más pertinentes para el diseño de la evaluación son
aquellas que identifican quiénes son elegibles para el programa y cómo se
seleccionan para que participen. Los grupos de comparación provienen de
aquellos sujetos elegibles pero que no pueden incorporarse al programa en
un determinado momento (por ejemplo, cuando los recursos son limitados
y hay exceso de demanda), o de aquellos que se encuentran cerca de un
umbral de elegibilidad para participar en el programa.
Concepto clave
Cuando se diseñan
Principios de las reglas de asignación al programa bien definidas
evaluaciones de
impacto, casi siempre Al diseñar las evaluaciones de impacto, siempre se pueden encontrar grupos
se pueden encontrar
de comparación válidos si las reglas operativas para seleccionar a los
grupos de comparación
válidos si las reglas beneficiarios son equitativas, transparentes y están sujetas a rendición de
operativas para cuentas:
seleccionar a los
beneficiarios son • Las reglas equitativas de asignación al programa clasifican o priorizan la
equitativas, elegibilidad en función de un indicador de las necesidades acordado
transparentes y están comúnmente, o estipulan que a todos se les ofrezcan los beneficios del
sujetas a rendición de programa, o que al menos tengan iguales posibilidades de que les ofrez-
cuentas. can los beneficios.
208 La evaluación de impacto en la práctica
• Las reglas de asignación al programa se divulgan y son transparentes, de
modo que las partes externas las acepten implícitamente y puedan com-
probar que en efecto hay un seguimiento. Las reglas transparentes debe-
rían ser cuantificables y fácilmente observables.
• Las reglas sujetas a rendición de cuentas son responsabilidad de los fun-
cionarios del programa y su implementación es la base del desempeño en
el trabajo o de las recompensas de esos funcionarios.
Las reglas operativas de elegibilidad son transparentes y están sujetas
a rendición de cuentas cuando los programas utilizan criterios cuantifi-
cables que pueden ser verificados por organizaciones externas y cuando
hacen públicos dichos criterios. La equidad, la transparencia y la rendi-
ción de cuentas aseguran que los criterios de elegibilidad sean verifica-
bles cuantitativamente y estén realmente implementados según su
diseño. Como tales, estos principios de buena gobernanza mejoran la
probabilidad de que el programa realmente beneficie a la población foca-
lizada y también constituyen la clave de una evaluación exitosa. Si las
reglas no son cuantificables y verificables, el equipo de evaluación tendrá
dificultades para asegurar que la asignación a los grupos de tratamiento
y comparación se produzca siguiendo el diseño o, como mínimo, docu-
mentando cómo sucedió en la práctica. Si los miembros del equipo de
evaluación no pueden verificar la asignación en la práctica, no pueden
analizar correctamente los datos para calcular los impactos. Entender
las reglas de asignación del programa es fundamental para seleccionar
un método de evaluación adecuado.
Cuando las reglas operativas incumplen cualquiera de estos tres prin-
cipios de buena gobernanza, surgen dificultades tanto para crear un pro-
grama bien diseñado como para llevar a cabo la evaluación. Es difícil
encontrar grupos de comparación válidos si las reglas que determinan la
elegibilidad y la selección de los beneficiarios no son equitativas ni trans-
parentes, ni están sujetas a rendición de cuentas. En este caso, el diseño
de una evaluación de impacto puede requerir aclaraciones y ajustes en el
funcionamiento del programa. Sin embargo, si las reglas están bien defi-
nidas, el método de evaluación de impacto se puede elegir sobre la base
de las reglas existentes de asignación del programa, como se explica a
continuación con más detalle.
Las reglas operativas suelen definir cuáles son los beneficios del programa,
cómo se financian y se distribuyen estos beneficios y de qué modo el
programa selecciona a los beneficiarios. Las reglas que gobiernan
Elección de un método de evaluación de impacto 209
los programas y la selección de los beneficiarios son clave para encontrar
grupos de comparación válidos. Las reglas que gobiernan la selección de los
beneficiarios comprenden la elegibilidad, las reglas de asignación en el caso
de recursos limitados y el orden de incorporación de los beneficiarios a lo
largo del tiempo. Más específicamente, las reglas clave que generan una hoja
de ruta para encontrar grupos de comparación corresponden a tres pregun-
tas operativas fundamentales en relación con los recursos de los que dis-
pone un programa, los criterios de elegibilidad y el calendario de la
implementación:
Cuadro 11.1 Relación entre las reglas operativas de un programa y los métodos de
evaluación de impacto
Criterios de Índice continuo y Sin índice continuo Índice continuo Sin índice continuo y
elegibilidad umbral de y umbral de y umbral de umbral de
elegibilidad elegibilidad elegibilidad elegibilidad
Las tres preguntas operativas clave guardan relación con el tema fundamen-
tal de cómo se seleccionan los beneficiarios, lo cual es crucial para encontrar
grupos de comparación válidos. En ocasiones, los grupos de comparación se
hallan entre las poblaciones no elegibles, y con mayor frecuencia entre las
poblaciones que son elegibles pero que se incorporan al programa más
tarde. La manera de priorizar entre los beneficiarios depende en parte de los
objetivos del programa ¿Se trata de un programa de jubilaciones para las
personas de edad avanzada, un programa de alivio de la pobreza focalizado
en los pobres o un programa de inmunización disponible para todos?
Para priorizar entre los beneficiarios sobre la base de la necesidad, el pro-
grama debe encontrar un indicador que sea a la vez cuantificable y verifica-
ble. En la práctica, la viabilidad de la priorización depende en gran parte de
la capacidad del gobierno para medir y clasificar las necesidades. Si el
gobierno puede clasificar adecuadamente a los beneficiarios en función de
sus necesidades relativas, puede que esté éticamente obligado a implemen-
tar el programa de acuerdo con las necesidades. Sin embargo, clasificar en
función de la necesidad requiere no solo una medida cuantificable sino tam-
bién la capacidad y los recursos para medir ese indicador para cada unidad
que participa en el programa.
Algunos programas utilizan criterios de selección que, en principio,
podrían usarse para clasificar necesidades relativas y determinar la elegibili-
dad. Por ejemplo, numerosos programas quieren llegar a las personas pobres.
Sin embargo, los indicadores de pobreza adecuados que clasifican a los hoga-
res de manera fiable a menudo son difíciles de medir y costosos de recopilar.
La recopilación de datos de los ingresos o del consumo de todos los benefi-
ciarios potenciales para clasificarlos según el nivel de pobreza es un proceso
complejo y oneroso que, además, sería difícil de verificar. Al contrario,
muchos programas utilizan algún tipo de proxy mean test para estimar los
niveles de pobreza. Se trata de índices de medidas observables sencillas
como los activos y las características sociodemográficas (Grosh et al., 2008).
Los proxy mean tests pueden ayudar a determinar razonablemente bien si un
Elección de un método de evaluación de impacto 213
hogar se sitúa por encima o por debajo de un umbral, pero pueden ser menos
precisos en una clasificación detallada de la situación socioeconómica o de
las necesidades.
En lugar de enfrentarse al costo y a la complejidad de clasificar a los
potenciales beneficiarios individuales, numerosos programas han decidido
clasificar en un nivel superior de agregación, como el nivel de la comunidad.
Determinar la asignación del programa a un nivel agregado tiene beneficios
operativos evidentes, pero a menudo es difícil encontrar indicadores para
producir una clasificación de las necesidades en un nivel más agregado.
En los casos en que un programa no puede asignar beneficios de manera
fiable sobre la base de la necesidad, ya sea porque no hay indicadores de
clasificación cuantificables y verificables, o porque es demasiado caro y pro-
penso a errores, se tienen que usar otros criterios para decidir cómo secuen-
ciar la implementación del programa. Un criterio coherente con la buena
gobernanza es la equidad. Una regla equitativa sería dar a todos aquellos que
son elegibles la misma oportunidad de ser el primero en tener acceso, y asig-
nar de forma aleatoria un lugar en la secuencia a los beneficiarios potencia-
les. En la práctica, dadas las dificultades para clasificar las necesidades, una
regla de asignación al programa que suele usarse es la asignación aleatoria
de los beneficios del programa. También produce un diseño de evaluación
aleatoria que puede proveer buena validez interna si se implementa bien, y
puede depender de supuestos más débiles en comparación con los otros
métodos, como se trata en la sección siguiente.
¿Quién está en el
grupo de
Metodología Descripción comparación? Supuesto clave Datos requeridos
Asignación aleatoria Las unidades elegibles se Las unidades elegibles se La aleatorización produce Datos de seguimiento de
asignan de forma aleatoria asignan aleatoriamente al dos grupos estadísticamente los resultados en los
a un grupo de tratamiento grupo de comparación. idénticos con respecto a las grupos de tratamiento y
o de comparación. Cada características observables y comparación; datos de
unidad elegible tiene una no observables a lo largo del línea de base y otras
probabilidad conocida de tiempo en ausencia de la características para los
ser seleccionada. Tiende a intervención (en la línea de grupos de tratamiento y
generar estimaciones de base y a lo largo del comparación con el fin
impacto internamente seguimiento). de verificar el equilibrio.
válidas con los supuestos
más débiles.
Variables instrumentales Un instrumento aleatoriza- Las unidades que El instrumento afecta la Datos de seguimiento de
(concretamente la do (como una campaña de cumplen con los participación en el programa, los resultados de todas
promoción aleatoria) promoción) induce requisitos para participar pero no afecta directamente las unidades; datos sobre
cambios en la participación pero cuya participación los resultados (es decir, el la participación efectiva
en el programa que se se ve afectada por el instrumento influye en los en el programa; datos de
evalúa. El método utiliza el instrumento (participa- resultados solo cambiando la los resultados de línea de
cambio en los resultados rían si se exponen al probabilidad de participar en base y otras característi-
inducido por el cambio en instrumento pero no lo el programa). cas.
las tasas de participación harían en caso contrario).
para estimar los impactos
del programa.
Continúa en la página siguiente.
215
Cuadro 11.2 Comparación de métodos de evaluación de impacto (continúa)
216
¿Quién está en el
grupo de
Metodología Descripción comparación? Supuesto clave Datos requeridos
Diseño de regresión Las unidades se clasifican Las unidades situadas Para identificar impactos no Datos de seguimiento de
discontinua a partir de criterios cerca del umbral, pero sesgados en el programa los resultados; índice de
cuantitativos específicos que no son elegibles para la población cercana al clasificación y umbral de
y continuos, como un para recibir el programa. umbral, las unidades que se elegibilidad; datos sobre
índice de pobreza. Un encuentran inmediatamente los resultados de línea de
umbral determina si una por debajo e inmediatamente base y otras característi-
unidad es elegible para por encima del umbral son cas.
participar en un programa. estadísticamente idénticas.
Los resultados de los Para identificar los impactos
participantes en una parte no sesgados en el programa
del umbral se comparan para toda la población, la
con los resultados de los población cercana al umbral
no participantes al otro debe ser representativa de
lado del umbral. toda la población.
Diferencias en diferencias El cambio en el resultado Las unidades que no Si el programa no existía, los Datos de línea de base y
a lo largo del tiempo en participaron en el resultados de los grupos de de seguimiento de los
un grupo de no participan- programa (por cualquier participantes y no participan- resultados y otras
tes se utiliza para estimar motivo) y para las cuales tes habrían evolucionado características tanto para
cuál habría sido el cambio se recopilaron datos paralelamente a lo largo del los participantes como
en los resultados de un antes y después del tiempo. para los no participantes.
grupo de participantes en programa.
ausencia de un programa.
Paramiento (en particular, Para cada participante del Para cada participante, la No hay ninguna característi- Seguimiento de los datos
pareamiento por puntajes programa, el método unidad no participante ca que influya en la participa- de los resultados de los
de propensión) busca la unidad “más que, según las prediccio- ción en el programa más allá participantes y no
similar” en el grupo de no nes sobre la base de de las características participantes; datos
participantes (el parea- características observa- observables utilizadas para sobre la participación
miento más estrecho se bles, tiene la misma el pareamiento. efectiva en el programa;
basa en características probabilidad de haber características de línea
observables). participado en el de base para llevar a
programa. cabo el pareamiento.
Fuente: Adaptado del sitio web de Abdul Latif Jameel Poverty Action Lab (J-PAL).
para cada método, un supuesto clave es que la media del grupo de compara-
ción de la que depende el método sea una estimación válida del contrafac-
tual. En cada uno de los capítulos sobre los métodos, que se presentan en la
segunda parte de este volumen, se han expuesto algunas consideraciones
sobre cómo probar si un método es válido en un contexto particular. Algunos
métodos dependen de supuestos más fuertes que otros.
Ceteris paribus, el método preferido es el que mejor se adecua al contexto Concepto clave
operativo y el que requiere los supuestos más débiles y la menor cantidad de El método de
datos. Estos criterios explican por qué los investigadores consideran la asig- evaluación de impacto
nación aleatoria la regla de oro, y por qué a menudo es el método preferido. preferido es aquel que
La asignación aleatoria se adecua a numerosos contextos operativos y tiende se adecua mejor al
a generar estimaciones de impacto internamente válidas con los supuestos contexto operativo,
requiere los supuestos
más débiles. Cuando se implementa de manera adecuada, genera compara-
más débiles y la menor
bilidad entre los grupos de tratamiento y comparación en características cantidad de datos.
observables y no observables. Además, la asignación aleatoria tiende a
requerir muestras más pequeñas que las necesarias para implementar méto-
dos cuasi-experimentales (véase el debate en el capítulo 15). Dado que la
asignación aleatoria es relativamente intuitiva, el método también facilita la
comunicación de resultados a los responsables de las políticas.
Puede que los métodos cuasi-experimentales sean más adecuados en
algunos contextos operativos, pero requieren más supuestos con el fin de
que el grupo de comparación provea una estimación válida del contrafac-
tual. Por ejemplo, el método de diferencias en diferencias depende del
supuesto de que los cambios en los resultados en el grupo de comparación
proporcionen una estimación válida del cambio del contrafactual en los
resultados del grupo de tratamiento. Este supuesto de que los resultados en
los grupos de tratamiento y comparación evolucionan paralelamente a lo
largo del tiempo no es siempre posible de probar sin múltiples rondas de
datos antes de la intervención. La regresión discontinua depende de la com-
parabilidad de las unidades justo por encima y justo por debajo del umbral
de elegibilidad. El pareamiento tiene los supuestos más fuertes de todos los
métodos, y esencialmente descarta cualquier característica no observable
entre los participantes del programa y los no participantes. En general,
cuanto más fuertes sean los supuestos, mayor será el riesgo de que no se
cumplan en la práctica.
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos con más
recursos, se recomienda consultar el sitio web de la Evaluación de Impacto en
la Práctica (http://www.worldbank.org/ieinpractice).
223
Roles y responsabilidades de los equipos de
investigación y de políticas públicas
El modelo de externalización
Para los encargados del programa, siempre atareados gestionando operacio-
nes complejas, a menudo es atractivo contar con un equipo externo encargado
Gestión de una evaluación de impacto 231
de diseñar e implementar la evaluación de impacto. Los modelos de externali-
zación pueden adoptar diferentes formas. Los administradores de programa a
veces intentan externalizar el diseño de la evaluación de impacto, así como la
realización de diversas encuestas (normalmente, una encuesta de línea de
base y de seguimiento) con una sola entidad en el marco de un contrato amplio.
En otros casos, los administradores de programa primero externalizan el
diseño y siguen con contratos de diversas fases de la recopilación y del análisis
de datos.
La externalización separa en cierta medida el diseño de la implementa-
ción de la evaluación de impacto, por lo cual una evaluación se puede consi-
derar más independiente. Sin embargo, externalizar totalmente la evaluación
de impacto puede implicar riesgos considerables. Establecer este tipo de
relación contractual puede limitar la colaboración entre los equipos de
implementación y de investigación (o la entidad contratada para llevar a
cabo la evaluación de impacto) del programa.
En algunos casos, se entrega al equipo contratado un conjunto de pará-
metros del programa previamente definidos, con escaso margen para deba-
tir sobre los planes de diseño y de implementación, o sobre el alcance, para
dar forma a la investigación. En otros casos, puede que no estén definidas las
reglas del programa y las modalidades de implementación necesarias para
diseñar una buena evaluación de impacto. En esos casos, el equipo contra-
tado encargado de dicha evaluación tiene una influencia limitada para ase-
gurar que se definan estos elementos.
En otros casos, puede que el programa ya haya sido diseñado o que la
implementación haya comenzado, lo cual puede limitar seriamente las
opciones metodológicas de la evaluación. A menudo se pide al equipo con-
tratado que se ajuste ex post a cambios en la implementación del programa,
sin participar estrechamente ni recibir información durante la implementa-
ción. Estas situaciones pueden conducir a diseños de evaluación subóptimos
o a dificultades durante la implementación, dado que el equipo contratado
puede tener motivaciones diferentes de las de los investigadores y los res-
ponsables de las políticas que han dirigido el diseño de la evaluación.
Por último, la selección y supervisión del equipo contratado puede ser
problemática para la unidad de implementación del programa. Se deben
tener en cuenta atentamente y desde el comienzo las reglas de adquisiciones
para asegurar que la externalización sea eficiente y que no presente conflic-
tos de interés. Ciertas reglas pueden limitar la posibilidad de que un equipo
que ha sido contratado para contribuir al diseño de una evaluación de
impacto pueda más tarde presentar una oferta para ejecutarla.
Para mitigar estos riesgos, normalmente es preferible que el equipo de
políticas públicas ya tenga hecho un diseño de evaluación de impacto, que
incluya una estrategia de identificación, indicadores de resultados clave,
232 La evaluación de impacto en la práctica
cálculos de potencia iniciales y tamaños aproximados de la muestra. Esto
contribuirá a orientar las adquisiciones y la contratación, dado que dichos
elementos influyen claramente en los presupuestos de la evaluación. El
equipo de políticas públicas también debería establecer mecanismos para
asegurar una supervisión técnica sólida del diseño y de la ejecución de la
evaluación de impacto. Esto podría realizarse a través de un comité de super-
visión o mediante una revisión técnica y científica regular de los productos
de la evaluación. En su conjunto, estas medidas de mitigación señalan que es
probable que el modelo más efectivo no sea totalmente externalizado.
El modelo de alianza
La colaboración entre los equipos de investigación y de políticas públicas no
se basa única ni necesariamente en relaciones contractuales. Se pueden
establecer alianzas mutuamente beneficiosas cuando los investigadores tie-
nen interés en llevar a cabo investigaciones sobre una pregunta de políticas,
y cuando los responsables de políticas y los encargados del programa procu-
ran asegurar que su proyecto cuente con una evaluación de impacto de
buena calidad. Los investigadores tienen incentivos para abordar nuevas
preguntas que se añadirán a la base de evidencia global, y para ampliar el
alcance de la evaluación de impacto y contribuir a que sea más visible. El
equipo de investigación puede movilizar parte del financiamiento para la
evaluación de impacto si los objetivos de los financiadores están estrecha-
mente alineados con el objeto de investigación de la evaluación.
Otro tipo de modelo integrado que está adquiriendo más relevancia,
sobre todo en las instituciones más grandes, como el Banco Mundial y el
Banco Interamericano de Desarrollo (BID), utiliza una capacidad de inves-
tigación de evaluación de impacto interna para apoyar a los equipos de polí-
ticas públicas y del programa.
No obstante, el enfoque de la alianza presenta ciertos riesgos. En deter-
minados momentos, puede que los investigadores procuren incorporar ele-
mentos novedosos en la investigación de la evaluación de impacto que quizá
no estén totalmente alineados con los objetivos inmediatos de las políticas a
nivel local, aunque puedan añadir valor en términos más globales. Por su
parte, los responsables de las políticas y los encargados del programa quizá
no siempre sepan apreciar el rigor científico necesario para emprender eva-
luaciones de impacto rigurosas, y quizá tengan una mayor tolerancia que el
equipo de investigación a los riesgos potenciales de la evaluación de impacto.
Para mitigar esos riesgos, los objetivos del equipo de investigación y de
los equipos de políticas públicas deben estar estrechamente alineados.
Por ejemplo, ambos equipos pueden trabajar juntos en un plan de evalua-
ción exhaustivo, definiendo una estrategia detallada, así como los roles y
responsabilidades de los respectivos equipos (véase el recuadro 12.2).
Gestión de una evaluación de impacto 233
El plan de evaluación de impacto también es una instancia para resaltar
reglas operativas clave, así como los riesgos operativos potenciales para
implementar la evaluación de impacto.
Un compromiso mutuo con una evaluación de impacto recogido en un
plan de evaluación claro es esencial para que la alianza funcione fluida-
mente, aun en ausencia de una relación contractual. Corresponde a las bue-
nas prácticas que este compromiso mutuo adopte la forma de un acuerdo
por escrito –por ejemplo, bajo la forma de términos de referencia o un
memorando de entendimiento– para establecer los roles, responsabilidades
y productos de la evaluación de impacto. Estos aspectos también se pueden
incluir en el plan de evaluación de impacto.
externos. Durante los primeros años de ope- se concibe, los investigadores afiliados a
raciones de la MCC, en ocasiones la separa- IPA, provenientes de una red global de uni-
ción entre el equipo del programa y los versidades, trabajan con los directores de
investigadores externos contratados para la país en las representaciones relevantes para
evaluación creó problemas. Por ejemplo, en crear un diseño de evaluación y un plan de
Honduras, los investigadores diseñaron un implementación. Los directores de país son
ensayo controlado aleatorio de un programa los encargados de gestionar las relaciones
de capacitación agrícola. Sin embargo, dado entre los socios y emparejar a los principales
que el contrato de implementación se basaba investigadores del equipo de investigación
en el desempeño, el implementador tenía un con los socios del programa en el equipo de
fuerte incentivo para encontrar agricultores políticas públicas para desarrollar una pro-
con un alto desempeño para el programa. Los puesta para una evaluación. Una vez apro-
agricultores elegibles no fueron asignados de bada una propuesta, contratan al personal
forma aleatoria al programa, lo que invalida el de gestión del proyecto para dirigir la recopi-
diseño de evaluación. Con la divulgación de lación de datos en el terreno, todos traba-
las primeras cinco evaluaciones de los progra- jando en la oficina local de IPA. La
mas de capacitación agrícola, la MCC coordinación entre los investigadores y los
reflexionó sobre las experiencias como esta y encargados del programa suele ser estre-
llegó a la conclusión de que la colaboración cha, y en algunos casos las oficinas de IPA
entre los implementadores y los evaluadores también son responsables de implementar
es crucial a lo largo del diseño y de la imple- la intervención que está siendo evaluada.
mentación. La organización adaptó su modelo
para que sea más selectivo al aplicar las eva- Modelos mixtos en el Banco Mundial
luaciones de impacto con el fin de encontrar En la última década, el Banco Mundial ha
un equilibrio entre la rendición de cuentas y el ampliado rápidamente el uso de las evalua-
aprendizaje. ciones de impacto prospectivas para esti-
mar los impactos de algunos de los
La integración en Innovations for Poverty proyectos de desarrollo que financia. Varios
Action grupos –entre ellos Development Impact
En Innovations for Poverty Action (IPA), una Evaluation (DIME), Strategic Impact
organización sin fines de lucro de Estados Evaluation Fund (SIEF) y Gender Innovation
Unidos, los equipos de investigación y de Lab (GIL)– proporcionan financiamiento y
políticas públicas trabajan juntos desde el apoyo técnico a las evaluaciones de impacto.
comienzo del diseño de la evaluación, y a Cuando se implementa un proyecto particu-
menudo desde el momento en que se gesta larmente innovador o donde hay grandes
el programa. El modelo de IPA cuenta con intereses en juego, se definen las activida-
una amplia red de oficinas en el terreno, des de evaluación de impacto, ya sea incor-
muchas de las cuales están en contacto con poradas en el proyecto y gestionadas por los
organismos del gobierno y otros socios. gobiernos contrapartes o como actividades
Desde el momento en que una evaluación independientes manejadas por el Banco
Continúa en la página siguiente.
Fuentes: Bertrand et al. (2015); IPA (2014); Sturdy, Aquino y Molyneaux (2014).
Los responsables de las políticas y los encargados del programa también tienen
que decidir con quién asociarse. Las preguntas clave son si el equipo de inves-
tigación –o partes del mismo– puede ser un equipo local, y qué tipo de ayuda
externa se requerirá. La capacidad de investigación varía en gran medida de un
país a otro. A menudo se contrata a las empresas internacionales cuando se
requieren habilidades concretas, y también pueden asociarse con empresas
locales. Las funciones de recopilación de datos generalmente son gestionadas
por estas últimas, debido a su profundo conocimiento del contexto y del
entorno local. También hay una marcada tendencia mundial a asegurar la
plena participación de los investigadores locales en la evaluación de impacto.
A medida que aumenta la capacidad de evaluación, es más habitual que
los gobiernos, las empresas privadas y las instituciones multilaterales imple-
menten evaluaciones de impacto en asociación con equipos de investigación
locales. La participación de los investigadores locales puede aportar un valor
fundamental a la evaluación de impacto gracias a su conocimiento
236 La evaluación de impacto en la práctica
del contexto local. En algunos países, la autorización de la investigación se
concede solo a los equipos que incluyen a investigadores locales. En general,
el administrador de la evaluación es el que evalúa la capacidad local y deter-
mina quién será responsable de qué aspectos del trabajo de evaluación. Las
redes académicas internacionales de evaluación de impacto (como JPAL o
IPA), las empresas privadas de investigación o grupos de evaluación de
impacto de instituciones internacionales (como DIME y SIEF en el Banco
Mundial; o SPD o RES en el BID) pueden ayudar a los equipos de políticas
públicas a tomar contacto con investigadores internacionales que tengan los
conocimientos técnicos expertos para colaborar en la evaluación de impacto.1
Otra pregunta es si trabajar con una empresa privada o con un organismo
público. Las empresas privadas o los institutos de investigación pueden ser
más fiables para proporcionar resultados de manera oportuna pero, una vez
que se ha firmado un contrato, las empresas privadas a menudo están menos
dispuestas a incorporar en la evaluación elementos que podrán encarecerla.
El equipo de investigación también puede trabajar con instituciones de inves-
tigación y universidades, cuya reputación y conocimientos técnicos expertos
garantizan que las partes interesadas aceptarán los resultados de la evalua-
ción. Sin embargo, en ocasiones esas instituciones carecen de la experiencia
operativa o de la capacidad para ejecutar ciertos aspectos de la evaluación,
como la recopilación de datos. Por lo tanto, puede que sea necesario subcon-
tratar algunos aspectos con otro socio. El desarrollo de capacidades en el sec-
tor público también puede ser un objetivo y se puede incluir como parte de
los términos de referencia de la evaluación de impacto. Cualquiera sea la
combinación de contrapartes a la que finalmente se llegue, será esencial efec-
tuar un análisis sólido de las actividades de evaluación de los colaboradores
potenciales en el pasado para tomar una decisión bien fundamentada.
Particularmente, cuando se trabaja con un organismo público con múlti-
ples responsabilidades, la capacidad y disponibilidad de un equipo de inves-
tigación interno para emprender las actividades de evaluación de impacto
tienen que ser estimadas a la luz de otras actividades por las que deben ren-
dir cuentas. Es importante tener conciencia de la carga de trabajo para valo-
rar no solo cómo influirá en la calidad de la evaluación que se lleve a cabo,
sino también en el costo de oportunidad de la evaluación con respecto a
otras iniciativas de las cuales es responsable el organismo público.
Los cuadros 12.1 y 12.2 proporcionan referencias útiles sobre los costos aso-
ciados con la realización de evaluaciones de impacto rigurosas. Contienen
datos sobre los costos de las evaluaciones de impacto de diversos proyectos
realizados con el apoyo del Fondo Estratégico para la Evaluación de Impacto
(SIEF, por sus siglas en inglés), administrado por el Banco Mundial. La
muestra del cuadro 12.1 proviene de un estudio exhaustivo de programas
que reciben el respaldo de los grupos de investigación sobre DIT y educa-
ción en SIEF. La muestra del cuadro 12.2 se seleccionó en función de la dis-
ponibilidad de estadísticas actuales sobre presupuestos del conjunto de
evaluaciones de impacto financiadas por SIEF.4
Los costos directos de las actividades de la evaluación analizados en las
muestras que se presentan en los cuadros 12.1 y 12.2 oscilan entre US$130.000
y US$2,78 millones, con un costo promedio cercano a US$1 millón. Aunque
estos costos varían en gran medida y pueden parecer elevados en términos
240 La evaluación de impacto en la práctica
Cuadro 12.1 Costo de las evaluaciones de impacto de una selección de proyectos con apoyo del
Banco Mundial
Costos de la
Costo total EI como
de la porcentaje
evaluación de Costo total del del total de
impacto programaa los costos del
Evaluación de impacto (EI) País (US$) (US$) programa
Proyecto de redes de protección Burkina Faso 750.000 38.800.000 1,9
Desarrollo de destrezas y empleo China 220.000 50.000.000 0,4
para migrantes
Proyecto de protección social Colombia 130.000 86.400.000 0,2
Plan piloto de nutrición integrada/ Yibuti 480.000 5.000.000 8,8
sistema de seguridad social
asistencial
Programa de inversión en sectores República 600.000 19.400.000 3,1
sociales Dominicana
Incentivos para los maestros Guinea 2.055.000 39.670.000 4,9
basados en el desempeño
Fuente: Una muestra de evaluaciones de impacto financiadas por los grupos de investigación sobre desarrollo infantil temprano (DIT)
y educación del Fondo Estratégico para la Evaluación de Impacto del Banco Mundial (SIEF).
EI = evaluación de impacto.
a. Los costos totales del programa no incluyen los costos asociados con la evaluación de impacto.
Cuadro 12.2 Costos desagregados de una selección de proyectos con apoyo del Banco Mundial
Cuadro 12.2 Costos desagregados de una selección de proyectos con apoyo del Banco Mundial (continúa)
Cuadro 12.2 Costos desagregados de una selección de proyectos con apoyo del Banco Mundial (continúa)
Fuente: Una muestra de evaluaciones de impacto financiada por el Fondo Estratégico para la Evaluación de Impacto (SIEF) del Banco Mundial.
a. Los costos estimados no siempre capturan todos los costos de la evaluación, lo que incluye el tiempo del equipo de políticas públicas.
b. Es el porcentaje de los costos totales de la evaluación por categoría. Este costo no incluye los costos del personal local del proyecto, que a menudo participaba intensamente
en el diseño y la supervisión de la evaluación, dado que los datos precisos de estos costos no se registran de manera regular.
247
Concepto clave absolutos, las evaluaciones de impacto suelen constituir solo un pequeño
Las evaluaciones de porcentaje de los presupuestos generales del programa. Además, el costo de
impacto suelen llevar a cabo una evaluación de impacto debe compararse con los costos de
constituir solo un oportunidad de no efectuar una evaluación rigurosa y, por lo tanto, de imple-
pequeño porcentaje de
los presupuestos
mentar potencialmente un programa inefectivo. Las evaluaciones permiten
generales del a los investigadores y a los responsables de las políticas identificar qué pro-
programa. Además, el gramas o características del programa funcionan, cuáles no funcionan y qué
costo de llevar a cabo estrategias pueden ser las más efectivas y eficientes para alcanzar los objeti-
una evaluación de vos del programa. En este sentido, los recursos necesarios para implementar
impacto debe
una evaluación de impacto constituyen una inversión relativamente
compararse con los
costos de oportunidad pequeña pero importante.
de no efectuar una El cuadro 12.2 desagrega los costos de la muestra de evaluaciones de
evaluación rigurosa y, impacto financiadas por el SIEF. Los costos totales de una evaluación inclu-
por lo tanto, de yen el tiempo del personal del Banco Mundial, los consultores nacionales e
implementar internacionales, los viajes, la recopilación de datos y las actividades de
potencialmente un
programa inefectivo.
divulgación.5 En estas evaluaciones, como en casi todas en las que no se pue-
den usar los datos existentes, el costo más importante corresponde a la reco-
pilación de nuevos datos, que equivale, en promedio, al 63% del costo de la
evaluación, como se muestra en el cuadro.
Estas cifras reflejan diferentes tamaños y tipos de evaluaciones. El costo
relativo de la evaluación de un programa piloto suele ser superior al costo
relativo de la evaluación de un programa a nivel nacional o universal.
Además, algunas evaluaciones solo requieren una encuesta de seguimiento
o pueden usar las fuentes de datos existentes, mientras que otras necesitan
llevar a cabo múltiples rondas de recopilación de datos. Los costos de
recopilación de datos dependen sobre todo de las capacidades del equipo
local, de los recursos disponibles y de la duración del trabajo de campo.
Para saber más sobre cómo determinar los costos de una encuesta en un
contexto particular, se recomienda al equipo de evaluación que primero
entre en contacto con el organismo nacional de estadística y que busque
información entre los equipos que hayan llevado a cabo un trabajo de
encuestas en el país.
Etapa de datos de
Etapa del diseño línea de base
Unidad Costo por Número de Costo Unidad Costo por Número de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
A. Salarios del personal Semanas 7.500 2 15.000 Semanas 7.500 2 15.000
B. Honorarios de los consultores 14.250 41.900
Consultor internacional (1) Días 450 15 6.750 Días 450 0 0
Consultor internacional (2) Días 350 10 3.500 Días 350 10 3.500
Investigador asistente/Coordinador Días 280 0 0 Días 280 130 36.400
de trabajo de campo
Experto estadístico Días 400 10 4.000 Días 400 5 2.000
C. Viajes y dietas
Personal: Vuelos internacionales Viajes 3.350 1 3.350 Viajes 3.350 1 3.350
Personal: Hotel y viáticos Días 150 5 750 Días 150 5 750
Personal: Transporte terrestre local Días 10 5 50 Días 10 5 50
Consultores internacionales: Vuelos Viajes 3.500 2 7.000 Viajes 3.500 2 7.000
internacionales
Consultores internacionales: Hotel Días 150 20 3.000 Días 150 20 3.000
y viáticos
Consultores internacionales: Días 10 5 50 Días 10 5 50
Transporte terrestre local
Coordinador de trabajo de campo: Viajes 0 0 Viajes 1.350 1 1.350
Vuelos internacionales
Coordinador de trabajo de campo: Días 0 0 Días 150 3 150
Hotel y viáticos
Etapa de datos de
Etapa del diseño línea de base
Unidad Costo por Número de Costo Unidad Costo por Número de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
Coordinador de trabajo de campo: Días 0 0 Días 10 3 30
Transporte terrestre local
D. Recopilación de datos 126.000
Tipo de datos 1: Consentimiento Escuela 120 100 12.000
Tipo de datos 2: Resultados Niño/a 14 3.000 42.000
educativos
Tipo de datos 3: Resultados de Niño/a 24 3.000 72.000
salud
E. Análisis y divulgación de datos
Taller(es)
Divulgación/informes
Costos totales por etapa Etapa de diseño 43.450 Etapa de línea de base 198.630
Notas
1. El acrónimo JPAL corresponde al Abdul Latif Jameel Poverty Action Lab; SPD
es la Oficina de Planificación Estratégica y Efectividad en el Desarrollo, y RES es
el Departamento de Investigación del BID.
2. Véase King y Behrman (2009) para un análisis detallado de las cuestiones de
programación con respecto a la evaluación de programas sociales.
3. “Hay diversos motivos por los que la implementación no es ni inmediata
ni perfecta, por qué la duración de la exposición al tratamiento difiere
no solo entre diferentes ámbitos del programa sino también en los diferen-
tes beneficiarios últimos, y por qué las diferentes exposiciones pueden
generar diferentes estimaciones del impacto de un programa” (King y
Behrman, 2009).
Referencias bibliográficas
Bertrand, M., B. Crépon, A. Marguerie y P. Premand. 2015. “Cote d’Ivoire Youth
Employment and Productivity Impact Evaluation.” AEA RCT Registry (9 de
octubre). Disponible en https://www.socialscienceregistry.org/trials/763
/history/5538.
Currie, J. 2001. “Early Childhood Education Programs.” Journal of Economic
Perspectives 15 (2): 213–38.
Currie, J. y D. Thomas. 1995. “Does Head Start Make a Difference?” American
Economic Review 85 (3): 341–64.
———. 2000. “School Quality and the Longer-Term Effects of Head Start.” Journal of
Economic Resources 35 (4): 755–74.
Gertler, P., J. Heckman, R. Pinto, A. Zanolini, C. Vermeersch, S. Walker, S. M. Chang
y S. Grantham-McGregor. 2014. “Labor Market Returns to an Early Childhood
Stimulation Intervention in Jamaica.” Science 344 (6187): 998–1001.
Grantham-McGregor, S., C. Powell, S. Walker y J. Himes. 1994. “The Long-Term
Follow-up of Severely Malnourished Children Who Participated in an
Intervention Program.” Child Development 65: 428–93.
IPA (Innovations for Poverty Action). 2014. “Researcher Guidelines: Working with
IPA.” (1 de septiembre.) Disponible en http://www.poverty-action.org/sites
/default/files/researcher_guidelines_version_2.0.pdf.
King, E. M. y J. R. Behrman. 2009. “Timing and Duration of Exposure in
Evaluations of Social Programs.” World Bank Research Observer 24 (1): 55–82.
King, E. M., P. F. Orazem y E. M. Paterno. 2008. “Promotion with and without Learning:
Effects on Student Enrollment and Dropout Behavior.” Serie de documentos de
trabajo de investigación de políticas Núm. 4722. Washington, D.C.: Banco Mundial.
McEwan, P. J. 2014. “Improving Learning in Primary Schools of Developing
Countries: A Meta-Analysis of Randomized Experiments.” Review of
Educational Research. (doi:10.3102/0034654314553127.)
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. “An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund.” World Bank Economic Review 16 (2): 241–74.
Sturdy, J., S. Aquino y J. Molyneaux. 2014. “Learning from Evaluation at the
Millennium Challenge Corporation.” Journal of Development Effectiveness
6 (4): 436–50.
Vermeersch, C., E. Rothenbühler y J. Sturdy. 2012. Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child Health.
Washington, D.C.: Banco Mundial. Disponible en http://www.worldbank.org
/health/impactevaluationtoolkit.
Gestión de una evaluación de impacto 255
CAPÍTULO 13
La ética y la ciencia en la
evaluación de impacto
Cuadro 13.1 Asegurar información fiable y creíble para las políticas mediante la ciencia abierta
Soluciones de prevención y
Implicaciones para las mitigación mediante la
Problemas de la investigación políticas públicas ciencia abierta
Sesgo de la publicación. Solo se Las decisiones de política se Registros de ensayos.
publican los resultados positivos. basan en un acervo distorsionado
Las evaluaciones que muestran de conocimiento. Los responsa-
impactos limitados o nulos no se bles de la política pública tienen
divulgan ampliamente. escasa información sobre lo que
no funciona y siguen probando/
adoptando políticas que no
tienen impacto alguno.
Minería de datos. Los datos se Las decisiones de política para Planes de preanálisis.
fragmentan cada vez más hasta adoptar intervenciones pueden
que aparece un resultado positivo estar basadas en estimaciones
en la regresión, o la hipótesis se positivas no justificadas de los
reajusta a los resultados. impactos.
Pruebas de hipótesis múltiples, Las decisiones de política Planes de preanálisis y técnicas
análisis de subgrupo. Los investiga- pública para adoptar intervencio- de ajustes estadísticos especia-
dores fragmentan cada vez más los nes pueden estar basadas en lizadas, como las pruebas de
datos hasta que encuentran un estimaciones positivas no índices, la tasa prudente de
resultado positivo para algún grupo. justificadas de los impactos. error relacionada con la familia
Concretamente: (1) las múltiples y el control de la tasa de falsos
pruebas conducen a la conclusión descubrimientos.a
de que algunos impactos existen
cuando en realidad no existen; o (2)
solo se informa sobre los impactos
que son significativos.
Soluciones de prevención y
Implicaciones para las mitigación mediante la
Problemas de la investigación políticas públicas ciencia abierta
Falta de replicación. No se pueden La política puede basarse en La documentación y el registro
replicar los resultados porque el resultados manipulados de los datos, incluidos los
protocolo de investigación, los datos (positivos o negativos), dado protocolos de proyecto, los
y los métodos de análisis no están que los resultados pueden códigos de organización, la
suficientemente documentados. deberse a errores de cálculo. publicación de los códigos, y la
publicación de datos.
Los errores y las manipulaciones Los resultados entre diferentes
pueden pasar inadvertidos. estudios no se pueden comparar. Cambios en las políticas de las
revistas arbitradas y de
A los investigadores no les interesa La validez de los resultados
financiamiento para requerir
replicar los estudios, y a las revistas en otro contexto no se puede
documentación acerca de los
arbitradas no les interesan los probar.
datos y promover la replicación.
resultados “yo también”.
No se pueden replicar las interven- Los responsables de la política
ciones porque el protocolo de pueden ser incapaces de
intervención no está suficientemente replicar la intervención en un
documentado. contexto diferente.
a. Para una introducción básica al problema de las comparaciones múltiples y las correcciones estadísticas potenciales, se
recomienda consultar https://en.wikipedia.org/wiki/Multiple_comparisons_problem.
Falta de replicación
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos de más
recursos, se recomienda consultar el sitio web de la Evaluación de Impacto en
la Práctica (http://www.worldbank.org/ieinpractice).
• Capacitación en investigación con sujetos humanos de los Institutos Naciona-
les de Salud (National Institutes of Health o NIH) de Estados Unidos.
➢ Los NIH ofrecen una capacitación en línea que, si bien se centra en las
ciencias médicas y en Estados Unidos, es muy informativa y se tarda solo
una hora en completarla. Véanse los enlaces: http://phrp.nihtraining.com
/users/login.php y www.ohsr.od.nih.gov.
• Capacitación en investigación con sujetos humanos a través de la Iniciativa de
Capacitación Institucional Colaborativa (CITI) de la Universidad de Miami.
➢ La CITI brinda cursos internacionales en varias lenguas tanto a organiza-
ciones como a individuos, aunque el programa tiene un costo (valor inicial:
US$100 por persona). Véase http://www.citiprogram.com.
• Compilación internacional de normas de investigación en seres humanos:
➢ Cada año, el Departamento de Salud y de Servicios Humanos de Estados
Unidos publica una compilación de leyes, regulaciones y directrices que
rigen la investigación sobre seres humanos. La edición de 2015 incluye 113
países, así como también las normas de diversas organizaciones internacio-
nales y regionales. El documento contiene las juntas de revisión institucio-
nal nacionales e internacionales (http://www.hhs.gov/ohrp/international).
Notas
1. En ausencia de directrices de ética nacional, el investigador y el equipo deberían
orientarse según la declaración de Helsinki adoptada por la 29 Asamblea Médica
Mundial en Tokio (octubre de 1975) y el artículo 7 del Acuerdo Internacional de
Derechos Civiles y Políticos, aprobado por la Asamblea General de las Naciones
Unidas el 16 de diciembre de 1966. Se encontrarán otras fuentes en la Organiza-
ción Mundial de la Salud (OMS) y en el “Informe Belmont sobre principios
éticos” y las “Directrices para la protección de seres humanos” (1974) (http://
www.hhs.gov/ohrp/policy/belmont.html). Una compilación internacional de
normas de investigación sobre seres humanos se puede hallar en http://www
.hhs.gov/ohrp/international.
2. Las directrices de la OMS sobre cómo elaborar un protocolo para una investiga-
ción que cuente con la participación de seres humanos se pueden encontrar en
http://www.who.int/rpc/research_ethics/guide_rp/en/index.html.
Referencias bibliográficas
Anderson, M. L. 2008. “Multiple Inference and Gender Differences in the Effects of
Early Intervention: A Reevaluation of the Abecedarian, Perry Preschool, and
Early Training Projects.” Journal of the American Statistical Association 103
(484): 1481–95.
Christensen, G. y C. Soderberg. 2015. The Research Transparency Manual. Berkeley
Initiative for Transparency in the Social Sciences. Disponible en https://github
.com/garretchristensen/BestPracticesManual.
Franco, A., N. Malhotra y G. Simonovits. 2014. “Publication Bias in the Social
Sciences: Unlocking the File Drawer.” Science 345 (6203): 1502–05.
Miguel, E., C. Camerer, K. Casey, J. Cohen, K. M. Esterling et al. 2014. “Promoting
Transparency in Social Science Research.” Science 343: 30–31.
Vermeersch, C., E. Rothenbühler y J. Sturdy. 2012. Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child Health.
Washington, D.C.: Banco Mundial. Disponible en http://www.worldbank.org
/health/impactevaluationtoolkit.
Divulgación de resultados y
generación de impacto en las
políticas públicas
Hay al menos tres públicos primarios para las conclusiones de una evalua-
ción de impacto: el personal del programa y los administradores involucra-
dos en el programa específico que se evalúa; los responsables de las políticas
de alto nivel que utilizarán la evaluación para fundamentar las decisiones de
financiamiento y de diseño de las políticas; y la comunidad de práctica, que
en términos amplios abarca la comunidad académica, los responsables del
desarrollo, la sociedad civil (incluidos los medios de comunicación) y los
participantes en el programa. Cada uno de estos públicos tendrá diferentes
intereses en los resultados de la evaluación y requerirá estrategias de comu-
nicación elaboradas a su medida cuando se trata de conseguir el objetivo de
servir de fundamento e influir en las políticas (cuadro 14.1).
Técnicos y administradores. El primer público clave son los miembros del
personal técnico y operativo, y los administradores que diseñaron e imple-
mentaron el programa, así como los representantes de instituciones (como
los ministerios o una institución de financiamiento) estrechamente asocia-
dos con el proyecto. Estas personas normalmente serán las primeras en
conocer los resultados de la evaluación, y elaborar comentarios sobre las
interpretaciones y recomendaciones de la evaluación.
Dado que esta suele ser la primera vez que los resultados ven la luz del día,
es clave programar la divulgación de información entre estos interesados. Por
un lado, es importante compartir los resultados de forma temprana, de modo
que los responsables de las decisiones del programa puedan incorporar cam-
bios y adoptar decisiones de políticas, como aumentar la escala de la inter-
vención (o disminuirla) o ajustar los componentes del programa para mejorar
el uso de los recursos y alcanzar un mayor impacto. Por otro lado, hay que
hacer una advertencia contra el riesgo de compartir resultados demasiado
preliminares basados en un análisis parcial o incompleto, dado que dichos
resultados podrían estar sujetos a cambios. Su divulgación podría crear
expectativas entre el personal del programa y precipitar decisiones de las
políticas aún no maduras que podrían ser caras de revertir en el futuro. Por lo
tanto, debería buscarse un equilibrio adecuado de puntualidad y completitud
Divulgación de resultados y generación de impacto en las políticas públicas 279
Cuadro 14.1 Participación de grupos clave en el impacto en las políticas: por qué, cuándo y cómo
puede transmitir una clara señal a los responsables de las políticas sobre la
calidad y credibilidad de los resultados de una evaluación.
Sobre la base de la estrategia de divulgación acordada, los informes y
documentos se pueden publicar en diversos medios, entre ellos, el sitio web
del programa, el sitio web de la institución evaluadora, como parte de una
serie de documentos de trabajo, revistas académicas arbitradas y libros.
Si bien los informes de evaluación y los documentos académicos sirven
como fundamento para la estrategia de divulgación, su alcance entre un
público más amplio fuera de la comunidad profesional y académica puede ser
limitado debido a su extensión y a su lenguaje técnico. Puede que el equipo de
evaluación, quizás en colaboración con los expertos en comunicación, consi-
dere útil producir artículos breves, escritos al estilo de un relato o con un estilo
periodístico, con un lenguaje claro y sencillo para llegara públicos más amplios.
Se pueden dar a conocer artículos breves bajo la forma de notas informativas
de políticas, boletines e infografías. En estas publicaciones, será particular-
mente útil eliminar la jerga técnica y traducir los resultados en representacio-
nes visualmente atractivas, con imágenes, esquemas y gráficos (recuadro 14.3).
Los equipos de evaluación pueden generar un conjunto de presentacio-
nes que acompañen a los informes escritos y los artículos breves. Las
presentaciones deberían elaborarse a la medida del público específico. Un
buen punto de partida es producir una presentación técnica para el equipo
del proyecto y el público académico, y otra presentación más breve y menos
técnica para los responsables de las políticas y la sociedad civil. Si bien las
principales conclusiones y recomendaciones para las políticas serán las mis-
mas, la estructura y el contenido de estas dos presentaciones tendrán dife-
rencias importantes. La presentación técnica debería centrarse en afianzar
la credibilidad de los resultados mediante una exposición de los métodos de
evaluación, los datos y el análisis, antes de llegar a los resultados y recomen-
daciones. Una presentación dirigida a los responsables de las políticas debe-
ría poner de relieve el problema del desarrollo que la intervención se
propone abordar y las implicaciones prácticas de las conclusiones, y tratar
de forma más superficial los detalles técnicos.
Para aprovechar el cada vez mayor acceso a Internet de los países en
desarrollo y las alternativas de bajo costo para producir multimedia, los
equipos de evaluación también pueden contemplar una gama de medios
para divulgar las conclusiones de la evaluación, entre ellos: los sitios web o
las grabaciones en audio y video. Los videoclips de corta duración pueden
ser un medio poderoso para transmitir ideas complejas a través de imáge-
nes y sonido, dejando que la historia de la evaluación se despliegue de una
manera que sea más rápida y más plenamente comprensible que la que
utilizan los típicos medios impresos (recuadro 14.4).
Otros recursos
CÓMO OBTENER
DATOS PARA UNA
EVALUACIÓN DE
IMPACTO
La cuarta parte de este libro proporciona orientación sobre cómo obtener datos
para una evaluación de impacto, lo que comprende la elección de la muestra y
cómo encontrar fuentes de datos adecuadas.
Gráfico 15.1 Uso de una muestra para inferir las características promedio de
una población de interés
Población de interés
Inferir características
de la población sobre
la base la muestra
Muestra
Marco muestral
válido
Marco muestral
no válido
Población
de interés
Como debería quedar claro a partir del comparación que no lo será. El proceso de
debate que se desarrolla en la segunda aleatorización de un programa que se exhibe
parte, la asignación aleatoria de los beneficios en el gráfico B15.1.2 es diferente del proceso
de un programa es diferente del muestreo de muestreo aleatorio descrito en el gráfico
aleatorio. El proceso de asignación aleatoria B15.1.1. Como se señaló en la segunda
parte de una población de interés elegible y parte, cuando la asignación aleatoria está
utiliza un procedimiento de aleatorización bien implementada, contribuye a la validez
para asignar las unidades (que normalmente interna de la evaluación de impacto. El
son personas o grupos de personas, como muestreo aleatorio puede ser útil para
niños en una escuela) de la población asegurar la validez externa, en la medida en
elegible a un grupo de tratamiento que será que la muestra se extrae aleatoriamente de
objeto de una intervención, y a un grupo de la población de interés.
Continúa en la página siguiente.
Población elegible
Comparación
Una muestra
pequeña
Población de interés
Una muestra
grande
con más precisión, también se podrá saber con más precisión la diferen-
cia de peso entre ambos grupos, y eso es el impacto del programa. Dicho
de otra manera, si solo se tiene una idea vaga del peso promedio de los
niños en los grupos de pequeños que participan (tratamiento) y que no
participan (comparación), ¿cómo se podrá tener una idea precisa de la
diferencia de peso de los dos grupos? La verdad es que no se puede. En
la siguiente sección, se examina esta idea de una manera ligeramente
más formal.
Una vez que se haya estimado el resultado promedio (el peso) del grupo
de tratamiento (los niños que participan seleccionados por asignación
aleatoria) y el grupo de comparación (los niños que no participan seleccio-
nados por asignación aleatoria), se puede proceder a determinar si los dos
resultados son diferentes. Esta parte está clara: se restan los promedios y
se calcula la diferencia. En términos estadísticos, la evaluación de impacto
pone a prueba la hipótesis nula (o por defecto) en contraste con la hipótesis
alternativa.
Nota: El efecto mínimo detectable describe la reducción mínima de los gastos directos en salud de
los hogares que puede detectar la evaluación de impacto. Potencia = 0,9; sin clusters.
Nota: El efecto mínimo detectable describe la reducción mínima de los gastos directos en salud de
los hogares que puede detectar la evaluación de impacto. Potencia = 0,8; sin clusters.
Efecto mínimo
detectable Grupo de Grupo de
(porcentaje) tratamiento comparación Total muestra
1 7.257 7.257 14.514
2 1.815 1.815 3.630
3 807 807 1.614
Nota: El efecto mínimo deseado describe el cambio mínimo en la tasa de utilización de servicios
hospitalarios (expresado en puntos porcentuales) que puede detectar la evaluación de impacto.
Pregunta HISP 8
Nota: El efecto mínimo detectable describe la reducción mínima de los gastos directos en salud de
los hogares que puede detectar la evaluación de impacto. El número de clusters es el número total
de clusters, la mitad de los cuales será el número de clusters del grupo de comparación, y la otra
mitad será el número de clusters del grupo de tratamiento.
Nota: El número de clusters es el número total de clusters, la mitad de los cuales será el número
de clusters del grupo de comparación, y la otra mitad será el número de clusters del grupo de
tratamiento. Si el diseño no tuviera clusters, se necesitarían 251 unidades en cada grupo para
identificar un efecto mínimo detectable de US$2 (véase el cuadro 15.3).
Pregunta HISP 9
Notas
1. Estrictamente hablando, las muestras se extraen de los marcos muestrales. En
este análisis, se supone que el marco muestral coincide perfectamente con la
población.
2. Como se señaló en la segunda parte, el cumplimiento supone que todas las
unidades asignadas al grupo de tratamiento son tratadas y que todas las
unidades asignadas al grupo de comparación no son tratadas.
3. En este contexto, el término población no se refiere a la población del país,
sino al conjunto del grupo de niños que nos interesan: la población de
interés.
4. Esta idea se concreta en el teorema denominado “teorema del límite central”.
En términos formales, en el caso de un resultado y, el teorema del límite central
establece que la media de la muestra —y constituye en promedio una estimación
válida de la media de la población. Además, para un tamaño de muestra n y una
varianza de la población s2, la varianza de la media de la muestra es inversa-
mente proporcional al tamaño de la muestra:
s2
var( y)
n
Referencias bibliográficas
Cochran, W. G. 1977. Sampling Techniques, tercera edición. Nueva York: John
Wiley & Sons.
Duflo, E., R. Glennerster, M. Kremer et al. 2007. “Using Randomization in
Development Economics Research: A Toolkit.” En: T. P. Schultz y J. Strauss
(eds.), Handbook of Development Economics, Vol. 4, pp. 3895–962. Ámsterdam:
Elsevier.
Fink, A. G. 2008. How to Conduct Surveys: A Step by Step Guide, cuarta edición.
Beverly Hills, CA: Sage.
Grosh, M. y P. Glewwe (eds.). 2000. Designing Household Survey Questionnaires
for Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington, D.C.: Banco Mundial.
Grosh, M. y J. Muñoz. 1996. “A Manual for Planning and Implementing the Living
Standards Measurement Study Survey.” Documento de trabajo LSMS 126.
Washington, D.C.: Banco Mundial.
Iarossi, G. 2006. The Power of Survey Design: A User’s Guide for Managing Surveys,
Interpreting Results, and Influencing Respondents. Washington, D.C.: Banco
Mundial.
Kalton, G. 1983. Introduction to Survey Sampling. Beverly Hills, CA: Sage.
En este capítulo se analizan las diversas fuentes de datos que pueden utilizar
las evaluaciones de impacto. En primer lugar, se estudian las fuentes de
datos existentes, sobre todo los datos administrativos, y se proporcionan
algunos ejemplos de evaluaciones de impacto que han aprovechado datos
existentes. Dado que muchas evaluaciones requieren la recopilación de
datos nuevos, también se examinan los pasos en la recopilación de nuevos
datos de las encuestas. Una comprensión clara de estos pasos contribuirá a
asegurar que la evaluación de impacto se base en datos de calidad que no
comprometan el diseño de evaluación. Como primer paso, habrá que con-
tratar la elaboración de un cuestionario adecuado. Paralelamente, se necesi-
tará ayuda de una empresa o un organismo del gobierno especializado en
recopilación de datos. La entidad de recopilación de datos reclutará y
capacitará al personal de campo y realizará una prueba piloto del cuestiona-
rio. Después de introducir los ajustes necesarios, la empresa o el organismo
podrán proceder con el trabajo de campo, recopilar los datos, digitalizarlos
y procesarlos antes de que puedan ser entregados, almacenados y analiza-
dos por el equipo de evaluación.
Para evaluar el impacto de la intervención en los resultados de interés, se
requieren datos de buena calidad. La cadena de resultados que se expone en
323
el capítulo 2 proporciona una base para definir qué indicadores deberían
medirse y cuándo. Los indicadores son necesarios en toda la cadena de
resultados.
Datos sobre los resultados. La primera y principal necesidad son los datos
sobre los indicadores de resultado directamente afectados por el programa.
Los indicadores de resultado están vinculados con los objetivos que el pro-
grama pretende alcanzar. Como se señaló en el capítulo 2, los indicadores de
resultado deben seleccionarse preferiblemente para que sean específicos,
medibles, atribuibles, realistas y focalizados (EMARF). No obstante, la
evaluación de impacto no debe medir solo aquellos resultados de los que el
programa rinde directamente cuentas. Los datos sobre los indicadores de
resultados que el programa afecta indirectamente, o los indicadores que
capturan los efectos no intencionados del programa, maximizarán el valor
de la información que genera la evaluación de impacto, así como la com-
prensión de la efectividad general del programa.
Datos sobre los resultados intermedios. Por otro lado, los datos sobre los
resultados intermedios son útiles para ayudar a entender los canales a tra-
vés de los cuales el programa evaluado ha tenido impacto –o no lo ha
tenido– en los resultados finales de interés. Normalmente, las evaluaciones
de impacto se llevan a cabo a lo largo de diversos períodos y se debe definir
cuándo medir los indicadores de resultados. Siguiendo esta cadena de
resultados, se puede establecer una jerarquía de indicadores de resultado,
que abarca desde los indicadores de corto plazo, que se pueden medir
mientras los participantes todavía están en el programa, como la asistencia
escolar registrada en una encuesta de seguimiento de corto plazo en el
contexto de un programa educativo, hasta las encuestas de seguimiento de
más largo plazo, como el aprendizaje escolar o la inserción en el mercado
laboral, que se pueden medir en una encuesta de seguimiento a más largo
Concepto clave plazo después de que los participantes han dejado el programa. Para medir
Los indicadores son el impacto a lo largo del tiempo de manera convincente es necesario contar
necesarios en toda la con datos de la línea de base antes de implementar el programa o la innova-
cadena de resultados. ción que se evalúa. La sección del capítulo 12 que versa sobre la programa-
Constituyen la ción en el tiempo de la evaluación arroja luz sobre cómo definir el momento
verificación para medir
en que se recopilan los datos.
los resultados finales y
los resultados Como se señaló en el capítulo 15, en el contexto de los cálculos de poten-
intermedios, así como cia, cuando las muestras son relativamente pequeñas, algunos indicadores
los beneficios y la pueden no ser adecuados para la evaluación de impacto. Detectar el impacto
calidad de implemen- de una intervención cuyos indicadores son extremadamente variables, se
tación del programa. refieren a sucesos poco frecuentes o solo se ven afectados de forma margi-
nal por la intervención, puede requerir muestras demasiado grandes. Por
ejemplo, solo será posible determinar el impacto de una intervención sobre
las tasas de mortalidad materna si se dispone de una muestra de decenas de
324 La evaluación de impacto en la práctica
miles de mujeres embarazadas, dado que la mortalidad es (afortunadamente)
un hecho excepcional. En ese caso, puede que sea necesario replantear la
evaluación de impacto y focalizarla en indicadores más intermedios,
relacionados con los resultados finales, pero para los cuales hay suficiente
potencia como para detectar efectos. En el caso de una intervención cuyo
fin es reducir la mortalidad materna, un indicador intermedio podría estar
vinculado con la utilización de los servicios de salud durante el embarazo, y
con los partos en los centros de salud, que están asociados con la mortali-
dad. Los cálculos de potencia analizados en el capítulo 15 pueden contri-
buir a arrojar luz sobre los indicadores en los que se detectan impactos y
aquellos en los que puede ser más difícil detectar impactos sin muestras
muy grandes.
Datos sobre las actividades y productos del programa. También se requie-
ren indicadores para la parte de la cadena de resultados que describe las
actividades y productos del programa. Concretamente, los datos de monito-
reo del programa pueden proporcionar información esencial sobre las pres-
taciones de la intervención. En particular, los datos de monitoreo incluyen
definiciones sobre quiénes son los beneficiarios y qué beneficios o produc-
tos del programa pueden haber recibido. Como mínimo, se necesitan datos
de monitoreo para saber cuándo comienza un programa y quién recibe
beneficios, así como para proporcionar una medida de la intensidad o cali-
dad de la intervención. Esto es particularmente importante en los casos en
que un programa puede no llegar a todos los beneficiarios con el mismo
contenido, calidad o duración. Es esencial tener una comprensión adecuada
de la medida en que la intervención se ha implementado siguiendo el diseño,
para interpretar los resultados de la evaluación de impacto, lo que incluye
saber si destacan la efectividad del programa puesto en marcha según el
diseño o si hay deficiencias en su implementación.
Datos adicionales. Puede que se precisen otros datos para la evaluación
de impacto, lo cual depende de la metodología usada. Los datos sobre otros
factores que pueden influir en el resultado de interés pueden ser necesarios
para controlar por influencias externas. Este aspecto es particularmente
importante cuando se utilizan métodos de evaluación que dependen de más
supuestos que los métodos aleatorios. A veces también es necesario tener
datos sobre los resultados y otros factores a lo largo del tiempo para calcular
tendencias, como sucede con el método de diferencias en diferencias. Dar
cuenta de otros factores y tendencias anteriores también contribuye a
aumentar la potencia estadística. Incluso con la asignación aleatoria, los
datos sobre otras características pueden ayudar a estimar los efectos del tra-
tamiento con más precisión. También pueden ser utilizados para incluir
controles adicionales o analizar la heterogeneidad de los efectos del pro-
grama en características relevantes.
Encontrando fuentes adecuadas de datos 325
El diseño seleccionado para la evaluación de impacto también afectará a
los requisitos de datos. Por ejemplo, si se elige el método de pareamiento o
de diferencias en diferencias, habrá que recolectar datos sobre una gama
muy amplia de características para los grupos tanto de tratamiento como de
comparación, lo que hace posible ejecutar una serie de pruebas de robustez,
como se explicó en la segunda parte o en el capítulo 11 (véase el cuadro 11.2).
Para cada evaluación, resulta útil desarrollar una matriz que enumere las
preguntas de interés, los indicadores de resultado para cada pregunta y la
fuente de los datos, como se describe en el gráfico 2.1 del capítulo 2 sobre la
cadena de resultados. La elaboración de un plan de evaluación de impacto y
el contar con un plan de preanálisis constituyen otras oportunidades esen-
ciales para definir una lista precisa de indicadores clave requeridos en las
evaluaciones de impacto.
Una de las primeras cuestiones que se debe considerar cuando se diseña una
evaluación de impacto es qué fuente de datos se utilizará. Una considera-
ción fundamental es si la evaluación de impacto dependerá de datos exis-
tentes o si requerirá la recopilación de datos nuevos.
Casi siempre se necesitan datos existentes al comienzo de una evaluación
de impacto para estimar los valores de referencia de los indicadores o para
efectuar cálculos de potencia, como se analizó en el capítulo 15. Después de
la fase de planificación, la disponibilidad de datos existentes puede dismi-
nuir de forma considerable el costo de una evaluación de impacto. Si bien es
probable que los datos existentes y, en particular los datos administrativos,
sean subutilizados en la evaluación de impacto en general, la viabilidad de
usar datos existentes en la evaluación de impacto tiene que ser valorada con
detenimiento.
De hecho, como se señaló en el capítulo 12, la recopilación de datos suele
representar el mayor costo de una evaluación de impacto. Sin embargo, para
determinar si los datos existentes se pueden utilizar en una determinada
evaluación de impacto, debe tenerse en cuenta una serie de preguntas:
• El muestreo. ¿Se dispone de datos existentes tanto para el grupo de trata-
miento como para el grupo de comparación? ¿Las muestras existentes se
han extraído de un marco muestral que coincide con la población de
interés? Las unidades del marco muestral, ¿se han obtenido mediante un
procedimiento de muestreo probabilístico?
• Tamaño de la muestra. ¿Las series de datos son suficientemente grandes
para detectar cambios en los indicadores de resultado con suficiente
326 La evaluación de impacto en la práctica
potencia? La respuesta a esta pregunta depende de la elección de los
indicadores de resultado, así como de los resultados de los cálculos de
potencia tratados en el capítulo 15.
• Disponibilidad de datos de línea de base. ¿Los datos existentes disponibles
tanto para los grupos de tratamiento como de comparación son anterio-
res a la implementación del programa o de la innovación que se evalúa?
La disponibilidad de datos en línea de base es esencial para documentar
el equilibrio en las características previas del programa entre los grupos
de tratamiento y de comparación cuando se utilizan métodos aleatorios, y
son esenciales para la implementación de diseños cuasi experimentales.
• Frecuencia. ¿Los datos existentes son recopilados con suficiente fre-
cuencia? ¿Se dispone de ellos para todas las unidades de la muestra a lo
largo del tiempo, incluyendo los momentos en que hay que medir los
indicadores de resultado según la cadena de resultados y la lógica de la
intervención?
• Alcance. ¿Los datos existentes contienen todos los indicadores necesa-
rios para responder a las preguntas de interés de las políticas, incluyendo
los principales indicadores de resultado y los resultados intermedios de
interés?
• Vínculos con la información de monitoreo del programa. ¿Los datos exis-
tentes se pueden vincular a datos del monitoreo de la implementación
del programa, lo que implica observar qué unidades pertenecen a los gru-
pos de tratamiento y de comparación, y si todas las unidades asignadas al
grupo de tratamiento reciben los mismos beneficios?
• Identificadores únicos. ¿Existen identificadores únicos que vinculen dife-
rentes fuentes de datos?
Como lo subrayan las preguntas anteriores, los requisitos para los datos
existentes son bastante importantes, y no es habitual que los datos existen-
tes resulten suficientes para las evaluaciones de impacto. Aun así, con el
rápido crecimiento en el alcance y la cobertura de los sistemas de informa-
ción, y con la evolución general hacia un mundo en que los datos digitales de
una amplia gama de fuentes se almacenan de manera periódica, cada vez
más evaluaciones de impacto pueden contemplar el uso de datos existentes.
Se puede utilizar una gama de fuentes potenciales de datos existentes en las
evaluaciones de impacto, lo cual abarca datos censales, encuestas nacionales
o datos administrativos.
Los datos del censo de población pueden proporcionar información
exhaustiva sobre toda la población. Se pueden utilizar para las evaluacio-
nes de impacto cuando están disponibles en un nivel suficientemente
Encontrando fuentes adecuadas de datos 327
desagregado e incluyen detalles para saber qué unidades pertenecen al
grupo de tratamiento o de comparación, como los identificadores geográ-
ficos o personales. Los datos censales no se recopilan a menudo, y normal-
mente incluyen solo un pequeño conjunto de indicadores clave. Sin
embargo, en ocasiones dichos datos se recopilan para incluirse en sistemas
de información o registros que proporcionan la base para definir los obje-
tivos de los programas públicos, lo que incluye identificadores únicos que
pueden servir de soporte a vínculos con otras bases de datos existentes.
Las encuestas representativas a nivel nacional, como las encuestas de
hogares, las encuestas de medición de los niveles de vida, las encuestas de la
fuerza laboral, las encuestas demográficas y de salud, las encuestas de
empresas o las encuestas de instalaciones también se pueden contemplar.
Estas pueden contener un conjunto exhaustivo de variables de resultado,
pero rara vez cuentan con suficientes observaciones, tanto del grupo de
tratamiento como de comparación, para llevar a cabo una evaluación de
impacto. Supóngase, por ejemplo, que se desea evaluar un programa nacio-
nal de gran alcance que llega al 10% de los hogares en un determinado país.
Si una encuesta representativa a nivel nacional se lleva a cabo en 5.000
hogares cada año, esta puede contener alrededor de 500 hogares que reciben
el programa en cuestión. ¿Es la muestra lo bastante grande para llevar a cabo
una evaluación de impacto? Los cálculos de potencia pueden responder a
esta pregunta, pero en muchos casos la respuesta es negativa.
Además de determinar si se pueden utilizar las encuestas existentes,
también se debe averiguar si se están planificando nuevas iniciativas de
recopilación de datos nacionales. Si se planifica una encuesta que cubrirá
la población de interés, quizá también se pueda introducir una pregunta
o una serie de preguntas como parte de esa encuesta. Si ya se ha pla-
neado una encuesta que mide los indicadores requeridos, existe la
posibilidad de sobre muestrear una determinada población para asegu-
rar una cobertura adecuada en los grupos de tratamiento y comparación
y acomodar la evaluación de impacto. Por ejemplo, la evaluación del
Fondo Social de Nicaragua complementó un estudio nacional de medi-
ción de los niveles de vida con una muestra adicional de beneficiarios
(Pradhan y Rawlings, 2002).
Los datos administrativos suelen ser recopilados por organismos públicos
o agencias privadas como parte de sus operaciones regulares, normalmente
con cierta frecuencia, y a menudo para monitorear los servicios prestados o
registrar interacciones con los usuarios. En algunos casos, los datos admi-
nistrativos contienen los indicadores de resultado necesarios para una eva-
luación de impacto. Por ejemplo, los sistemas educativos cuentan con
registros de la matriculación y asistencia de los alumnos y de las calificacio-
nes de las pruebas, y también pueden recopilar información sobre los
328 La evaluación de impacto en la práctica
insumos escolares y los maestros. De la misma manera, los sistemas de salud
pueden reunir datos sobre las características y localización de los centros de
salud, la oferta de servicios de salud y la asignación de recursos. También
pueden consolidar datos recopilados en centros de salud sobre los historia-
les médicos de los pacientes, datos antropométricos, historiales de vacuna-
ciones y, de manera más amplia, datos sobre la incidencia de las enfermedades
y estadísticas vitales. Las empresas de servicios públicos reúnen datos sobre
el consumo de agua o electricidad. Las agencias tributarias pueden recoger
datos sobre los ingresos y los impuestos. Los sistemas de transporte recopi-
lan datos sobre los pasajeros y los tiempos de viaje. Las empresas del sistema
financiero recopilan datos sobre las transacciones o el historial crediticio de
los clientes. Todas estas fuentes de datos existentes pueden ser potencial-
mente utilizadas en las evaluaciones de impacto. A veces incluyen series
temporales extensas, que pueden contribuir a seguir a las unidades a lo largo
del tiempo.
Es crucial realizar un diagnóstico de la disponibilidad y calidad de los
datos cuando se considera la posibilidad de utilizar datos administrativos.
En algunos casos, los datos de las fuentes administrativas pueden ser más
fiables que los datos de las encuestas. Por ejemplo, un estudio en Malawi
reveló que los encuestados daban información falsa sobre la asistencia y
matriculación escolar en una encuesta de hogares, en comparación con los
registros administrativos obtenidos en las escuelas; por lo tanto, los resul-
tados de la evaluación de impacto eran más fiables si se basaban en los
datos administrativos (Baird y Özler, 2012). Al mismo tiempo, en numero-
sos contextos, los datos administrativos son recopilados por un gran
número de proveedores y pueden ser de calidad desigual. Por lo tanto, su
fiabilidad debe valorarse detenidamente antes de tomar la decisión de tra-
bajar con datos administrativos en la evaluación de impacto. Un aspecto
crucial consiste en asegurar que existan identificadores únicos para vin-
cular los datos administrativos con otras fuentes de datos, incluyendo
datos sobre el monitoreo del programa que documentan qué unidades han
recibido los beneficios del programa. Cuando estos identificadores exis-
ten, como los números de identificación nacional usados de manera
consistente, se puede evitar una gran cantidad de trabajo para preparar y
limpiar los datos. En todos los casos, la protección de la confidencialidad
es una parte importante de la preparación de los datos y del protocolo de
gestión de datos. Los principios éticos que rigen la protección de sujetos
humanos (véase el debate en el capítulo 13) también rigen el uso que se
hace de datos existentes.
Algunas evaluaciones retrospectivas influyentes han trabajado con
registros administrativos: Galiani, Gertler y Schargrodsky (2005), sobre
la política de aguas en Argentina; Ferraz y Finan (2008) sobre auditorías y
Encontrando fuentes adecuadas de datos 329
desempeño de los políticos, y Chetty, Friedman y Sáez (2013) sobre los crédi-
tos fiscales en Estados Unidos. En el recuadro 16.1 se presenta un ejemplo de
evaluación de impacto de salud en Argentina. Por su parte, el recuadro 16.2
ilustra el uso de datos administrativos en la evaluación de impacto de un
programa de transferencias monetarias en Honduras.
En algunos casos, los datos requeridos para la evaluación de impacto se
pueden recopilar implementando nuevos sistemas de información o de
datos administrativos. Esta implementación se puede coordinar con la de un
diseño de evaluación, de modo que los indicadores de resultado se recopilen
para un grupo de tratamiento y un grupo de comparación en múltiples
Los datos existentes son suficientes para toda una evaluación de impacto
solo en casos relativamente raros. Si los datos administrativos no son
suficientes para la evaluación, muy posiblemente habrá que depender de
datos de encuestas. Como consecuencia, lo más probable es que se tenga que
presupuestar la recopilación de nuevos datos. A pesar de que la recopilación
de datos suele implicar el mayor costo de una evaluación de impacto, tam-
bién puede ser una inversión de alto retorno de la que a menudo depende la
calidad de la evaluación. La recopilación de nuevos datos proporciona la fle-
xibilidad para garantizar que se midan todos los indicadores necesarios para
una evaluación integral del desempeño del programa.
La mayoría de las evaluaciones de impacto requieren recopilar datos de
encuestas, incluyendo al menos una encuesta de línea de base antes de la
intervención o innovación que se evalúa, y una encuesta de seguimiento
después de que se ha implementado la intervención. Los datos de las encues-
tas pueden ser de diversos tipos, en función del programa que se evalúa y de
la unidad de análisis. Por ejemplo, las encuestas de empresas utilizan a las
firmas como la principal unidad de observación, las encuestas de instalacio-
nes utilizan los centros de salud o las escuelas como la principal unidad de
observación, y las encuestas de hogares utilizan los hogares como la princi-
pal unidad de observación. La mayoría de las evaluaciones dependen de
encuestas individuales o de hogares como fuente primaria de datos. En esta
sección, se revisan algunos principios generales de la recopilación de datos
de las encuestas. Aunque estos se refieren sobre todo a las encuestas de
hogares, los mismos principios son válidos para la mayoría de otros tipos de
datos de encuestas.
El primer paso para decidir si utilizar los datos existentes o recopilar
nuevos datos mediante encuestas será determinar el enfoque del muestreo,
así como el tamaño necesario de la muestra (como se analizó en el
capítulo 15). Una vez que se decida recopilar datos de encuestas para la
evaluación, habrá que:
332 La evaluación de impacto en la práctica
• Determinar quién recopilará los datos.
• Desarrollar y poner a prueba el instrumento de recopilación de datos.
• Llevar a cabo un trabajo de campo y realizar el control de calidad.
• Procesar y almacenar los datos.
La implementación de estos diversos pasos se suele contratar, pero es esen-
cial que se comprendan su alcance y sus componentes clave para poder
gestionar efectivamente una evaluación de impacto de calidad.
Referencias bibliográficas
Baird, S. y B. Özler. 2012. “Examining the Reliability of Self-reported Data on
School Participation.” Journal of Development Economics 98 (1): 89–93.
Bardasi, E., K. Beegle, A. Dillon, A. y P. Serneels. 2011. “Do Labor Statistics
Depend on How and to Whom the Questions Are Asked? Results from a
Survey Experiment in Tanzania.” The World Bank Economic Review
25 (3): 418–47.
Beegle, K., C. Carletto y K. Himelein. 2012. “Reliability of Recall in Agricultural
Data.” Journal of Development Economics 98 (1): 34–41.
Beegle, K., J. De Weerdt, J. Friedman y J. Gibson. 2012. “Methods of Household
Consumption Measurement through Surveys: Experimental Results from
Tanzania.” Journal of Development Economics 98 (1): 3–18.
Caeyers, B., N. Chalmers y J. De Weerdt. 2012. “Improving Consumption
Measurement and Other Survey Data through CAPI: Evidence from a
Randomized Experiment.” Journal of Development Economics 98 (1): 19–33.
Chetty, R., J. N. Friedman y E. Sáez. 2013. “Using Differences in Knowledge across
Neighborhoods to Uncover the Impacts of the EITC on Earnings.” American
Economic Review 103 (7): 2683–2721.
Das, J. y J. Hammer. 2007. “Money for Nothing: The Dire Straits of Medical Practice
in Delhi, India.” Journal of Development Economics 83 (1): 1–36.
Fafchamps, M., D. McKenzie, S. Quinn y C. Woodruff. 2012. “Using PDA
Consistency Checks to Increase the Precision of Profits and Sales Measurement
in Panels.” Journal of Development Economics 98 (1): 51–57.
Ferraz, C. y F. Finan. 2008. “Exposing Corrupt Politicians: The Effects of Brazil’s
Publicly Released Audits on Electoral Outcomes.” The Quarterly Journal of
Economics 123 (2): 703–45.
Fink, A. G. y J. Kosecoff. 2008. How to Conduct Surveys: A Step by Step Guide, cuarta
edición. Londres: Sage.
Conclusiones
La evaluación de impacto tiene que ver con generar evidencia sobre qué
programas funcionan, qué programas no lo hacen y cómo mejorarlos para
lograr mejores resultados en materia de desarrollo. Esto se puede realizar
en un marco clásico de evaluación de impacto, contrastando los resultados
entre grupos de tratamiento y comparación. Las evaluaciones de impacto
también se pueden llevar a cabo para explorar alternativas de implementa-
ción de un programa, para probar innovaciones o analizar diferentes pro-
gramas con el fin de evaluar el desempeño comparativamente.
La idea que subyace a este trabajo es que las evaluaciones de impacto
constituyen una inversión valiosa para numerosos programas. Junto con el
monitoreo y otras formas de evaluación, optimizan la comprensión de la
efectividad de determinadas políticas; contribuyen a una rendición de
cuentas mejorada de los administradores del programa, los gobiernos, los
financiadores y el público en general; fundamentan decisiones acerca de
cómo asignar de manera más eficiente los escasos recursos para el desarro-
llo, y aportan al acervo global de conocimientos sobre lo que funciona y no
funciona en el campo del desarrollo.
355
Lista de verificación: elementos centrales de una
evaluación de impacto bien diseñada
Respeto por las normas éticas y consideración por los sujetos humanos
en el diseño y la implementación de la evaluación y la recopilación de
datos correspondiente, así como atención a los principios de ciencia
abierta para asegurar la transparencia.
Conclusiones 357
diseñadas pueden contribuir a probar innovaciones o a proporcionar
nuevas perspectivas de la efectividad relativa de diversos productos y
servicios prestados como un paquete de programas existentes.Incorporar
una innovación adicional al programa como un pequeño plan piloto en el
contexto de una evaluación más grande puede servir para aprovechar la
evaluación a fin de producir información valiosa para la toma de decisio-
nes en el futuro.
Se debe pensar en las evaluaciones de impacto como otro de los compo-
nentes de la operación de un programa y se les debe dotar de personal
adecuado y de un presupuesto que contemple los recursos técnicos y
financieros necesarios. Es preciso ser realista acerca de los costos y la
complejidad de llevar a cabo una evaluación de impacto. Normalmente,
el proceso de diseñar una evaluación y recopilar una línea de base desde
cero puede tardar un año o más. Una vez que el programa comienza, el
grupo de tratamiento necesita un período suficientemente largo de expo-
sición a la intervención para influir en los resultados. Dependiendo del
programa, esto puede tardar entre un año y cinco años, o más en el caso
de resultados de largo plazo. Recopilar una o más encuestas de segui-
miento, llevar a cabo el análisis y divulgar los resultados también reque-
rirá un esfuerzo considerable a lo largo de varios meses y años. En su
conjunto, un ciclo completo de evaluación de impacto desde el comienzo
hasta el final suele durar entre tres y cuatro años de intensivo trabajo y
participación. Se requieren recursos financieros y técnicos adecuados en
cada paso del proceso.
Los términos que llevan cursiva dentro de las definiciones se definen a su vez dentro
del propio glosario.
Actividad. Medidas adoptadas o trabajo realizado a través del cual los insumos,
como los fondos, la asistencia técnica y otro tipo de recursos que se movilizan para
generar productos específicos, como el dinero gastado, los libros de texto distribui-
dos o el número de participantes en un programa de empleo.
Análisis de costo-beneficio. Estima los beneficios totales previstos de un
programa, en comparación con sus costos totales previstos. Su fin es cuantificar
todos los costos y beneficios de un programa en términos monetarios y evaluar si los
beneficios superan a los costos.
Análisis de costo-efectividad. Compara el costo relativo de dos o más programas
o alternativas de programa en términos de alcanzar un resultado común, como la
producción agrícola o las calificaciones de los alumnos en los exámenes.
Análisis de regresión. Método estadístico para analizar las relaciones entre una
variable dependiente (la variable que se debe explicar) y variables explicativas. El
análisis de regresión normalmente no es suficiente para capturar los efectos causales.
En la evaluación de impacto, el análisis de regresión es una manera de representar la
relación entre el valor de un indicador de resultado Y (variable dependiente) y una
variable independiente que captura la asignación al grupo de tratamiento o grupo de
comparación, mientras se mantienen constantes otras características. Tanto la asig-
nación al grupo de tratamiento y de comparación como las demás características son
variables explicativas. El análisis de regresión puede ser univariante (si hay solo una
variable explicativa; en el caso de la evaluación de impacto, la única variable explica-
tiva es la asignación al grupo de tratamiento o de comparación) o multivariante
(si hay varias variables explicativas).
Análisis de sensibilidad. Trata de la sensibilidad del análisis ante los cambios en
los supuestos. En el contexto de los cálculos de potencia, contribuye a comprender
361
cuánto tendrá que aumentar el tamaño requerido de la muestra bajo supuestos más
conservadores (como un menor impacto esperado, una mayor variación en el
indicador de resultado o un nivel más alto de potencia).
Asignación aleatoria o ensayo controlado aleatorio. Método de evaluación de
impacto por el cual cada unidad elegible (por ejemplo, un individuo, un hogar, una
empresa, una escuela, un hospital o una comunidad) tiene la misma probabilidad
de ser seleccionada para ser tratada en un programa. Con un número suficiente-
mente grande de unidades, el proceso de asignación aleatoria garantiza la equiva-
lencia tanto en las características observables como no observables entre el grupo
de tratamiento y el grupo de comparación, y así se descarta cualquier sesgo de
selección. La asignación aleatoria se considera el método más robusto para estimar
los contrafactuales y se le suele considerar como la regla de oro de la evaluación de
impacto.
Cadena de resultados. Establece la lógica causal del programa explicando cómo se
logra el objetivo de desarrollo. Articula la secuencia de insumos, actividades y
productos que se espera que mejoren los resultados.
Cálculos de potencia. Método para determinar cuál es el tamaño de la muestra
requerida para que una evaluación de impacto estime con precisión el impacto de un
programa, es decir: la muestra más pequeña que permitirá detectar el efecto mínimo
detectable. Los cálculos de potencia dependen de parámetros como la potencia (o la
probabilidad de un error de tipo II), el nivel de significancia, la media, la varianza y la
correlación intra-clusters de los resultados de interés.
Censo. Empadronamiento total de una población. Los datos censales abarcan todas
las unidades de la población. Compárese con muestra.
Ciencia abierta. Movimiento cuyo fin es elaborar métodos de investigación más
transparentes, mediante el registro de los ensayos, la utilización de planes de
preanálisis, documentación de datos y registros.
Comparación antes y después. También conocida como “comparación previa-
posterior” o “comparación reflexiva”. Se trata de un seguimiento de los cambios en
los resultados para los beneficiarios del programa a lo largo del tiempo, utilizando
mediciones antes y después de la implementación del programa o la política, sin
utilizar un grupo de comparación.
Comparaciones de inscritos y no inscritos. También conocidas como compara-
ciones autoseleccionadas. Esta estrategia compara los resultados de las unidades que
decidieron inscribirse y las unidades que decidieron no inscribirse en un programa.
Cluster. También llamado conglomerado. Grupo de unidades que pueden compartir
características similares. Por ejemplo, los niños que asisten a la misma escuela
pertenecen a un mismo cluster porque comparten el mismo centro escolar, los
mismos profesores y viven en el mismo barrio.
Consentimiento informado. Uno de los fundamentos de la protección de los
derechos de los sujetos humanos. En el caso de las evaluaciones de impacto, requiere
que los encuestados comprendan claramente los fines, procedimientos, riesgos y
beneficios de la recopilación de datos en la que se les pide participar.
Glosario 363
continuo para clasificar a los participantes potenciales. Dicho índice tiene un punto
límite que determina si los participantes potenciales son elegibles para recibir el
programa o no. El umbral de elegibilidad del programa proporciona un punto
divisorio entre el grupo de tratamiento y el grupo de comparación. Los resultados para
los participantes en un lado del umbral se comparan con los resultados de los no
participantes al otro lado del umbral. Cuando todas las unidades cumplen con la
asignación que corresponde sobre la base de su índice de elegibilidad, se dice que el
DRD es “nítido”. Si hay incumplimiento en el otro lado del umbral, se dice que el
DRD es “difuso” o “borroso”.
Efecto causal. Véase impacto.
Efecto de derrame. También denominado efecto de contagio. Ocurre cuando el
grupo de tratamiento influye directa o indirectamente en los resultados del grupo de
comparación (o a la inversa).
Efecto mínimo detectable. El efecto mínimo detectable es un insumo en los cálcu-
los de potencia, es decir, proporciona el tamaño del efecto que una evaluación de
impacto está diseñada para estimar con un determinado nivel de significancia y
potencia. Las muestras de la evaluación tienen que ser lo bastante grandes para
distinguir al menos el efecto mínimo detectable. Este efecto se determina teniendo
en cuenta el cambio en los resultados que justificaría la inversión que se ha hecho en
una intervención.
Efecto Hawthorne. Se produce cuando, por el simple hecho de ser observadas, las
unidades se comportan de manera diferente.
Efecto John Henry. Acontece cuando las unidades de la comparación se
esfuerzan más para compensar que no se les haya ofrecido el tratamiento.
Cuando se comparan las unidades tratadas con las unidades de la comparación
que se esfuerzan más, la estimación del impacto del programa tiene un sesgo; es
decir, se estima un impacto menor del programa en comparación con el impacto
real que se obtendría si las unidades de la comparación no realizaran un
esfuerzo adicional.
Efecto local promedio del tratamiento (LATE, por sus siglas en inglés).
Impacto de un programa estimado para un subconjunto específico de la población,
como las unidades que cumplen con su asignación al grupo de tratamiento o de
comparación en presencia de un cumplimiento imperfecto, o en torno al umbral de
elegibilidad cuando se aplica un diseño de regresión discontinua. Por lo tanto, el
LATE proporciona solo una estimación local del impacto del programa y no debería
generalizarse al conjunto de la población.
Efectos de equilibrio de contexto. Efectos de derrame que se producen cuando
una intervención influye en las normas de conducta o sociales en un contexto
determinado, como una localidad tratada.
Efectos de equilibrio general. Estos efectos de derrame se producen cuando las
intervenciones afectan la oferta y demanda de bienes y servicios y, por lo tanto,
cambian el precio de mercado de esos servicios.
Glosario 365
del programa. Suelen emprenderse para probar la viabilidad de un programa nuevo.
Sus resultados no son generalizables más allá del alcance de la evaluación.
Evaluación. Valoración periódica y objetiva de un proyecto, un programa o una
política planificados, en curso o finalizados. Las evaluaciones se utilizan para
responder preguntas específicas, a menudo relacionadas con el diseño, la implemen-
tación o los resultados.
Evaluación de impacto. Evaluación que intenta establecer un vínculo causal entre
un programa o intervención y un conjunto de resultados. Una evaluación de impacto
procura responder a la pregunta: ¿cuál es el impacto (o efecto causal) de un programa
en un resultado de interés?
Evaluación de proceso. Evaluación que se centra en cómo se implementa y
funciona un programa, y que evalúa si se corresponde con su diseño original y docu-
menta su desarrollo y funcionamiento. Compárese con evaluación de impacto.
Evaluación prospectiva. Evaluaciones diseñadas y aplicadas antes de que se imple-
mente un programa. Las evaluaciones prospectivas están incorporadas en los planes
de implementación del programa. Compárese con evaluación retrospectiva.
Evaluación retrospectiva. Evaluación diseñada después de que se ha implemen-
tado un programa (ex post). Compárese con evaluación prospectiva.
Experimento de mecanismo. Evaluación de impacto que prueba un mecanismo
causal particular dentro de la teoría del cambio de un programa, en lugar de probar el
efecto causal (impacto) del programa como un todo.
Factor invariante en el tiempo. Factor que no varía a lo largo del tiempo; es
constante.
Factor variante en el tiempo. Factor que varía a lo largo del tiempo.
Falta de rango común. Cuando se utiliza el método de pareamiento, la falta de
rango común es una falta de superposición entre los puntajes de propensión del grupo
de tratamiento, o inscrito, y los del grupo de no inscritos.
Falta de respuesta. Se produce cuando faltan datos o los datos son incompletos
para algunas unidades de la muestra. La falta de respuesta de la unidad surge cuando
no hay información disponible para algunas unidades de la muestra, es decir, cuando
la muestra real es diferente de la muestra planificada. Una forma de falta de respuesta
a nivel de la unidad es el desgaste. La falta de respuesta de una entrada se produce
cuando los datos son incompletos para algunas unidades de la muestra en un
determinado momento del tiempo. La falta de respuesta puede generar sesgos en los
resultados de una evaluación si está asociada con la condición de tratamiento.
Falta de respuesta de la unidad. Surge cuando no hay información disponible
para un subconjunto de unidades; es decir, cuando la muestra real es diferente de la
muestra planificada.
Falta de respuesta de una entrada. Ocurre cuando los datos son incompletos
para algunas unidades de la muestra.
Glosario 367
Junta de revisión institucional (JRI). Comité nombrado para examinar, aprobar y
monitorear la investigación con sujetos humanos. También conocido como Comité
de ética independiente o Junta de revisión ética.
Línea de base. Situación previa a una intervención, con respecto a la cual se puede
valorar el progreso o se pueden hacer comparaciones. La línea de base se recopila en
forma previa a la implementación de un programa o política para observar la
situación antes. La disponibilidad de datos de línea de base es fundamental para
documentar el equilibrio en las características anteriores al programa entre los
grupos de tratamiento y de comparación. Los datos de línea de base son necesarios
para algunos diseños cuasi experimentales.
Marco muestral. Lista exhaustiva de las unidades de la población de interés. Se
requiere un marco muestral adecuado para asegurar que las conclusiones a las que se
arribe a partir del análisis de una muestra se puedan generalizar a toda la población.
Las diferencias entre el marco muestral y la población de interés crea un sesgo de
cobertura. Ante la presencia de dicho sesgo, los resultados de la muestra no tienen
validez externa para toda la población de interés.
Método cuasi experimental. Métodos de evaluación de impacto que no dependen de
la asignación aleatoria del tratamiento. Las diferencias en diferencias, el diseño de
regresión discontinua y el pareamiento son ejemplos de métodos cuasi experimentales.
Método de control sintético. Un método de pareamiento específico que permite
estimar el impacto en contextos donde una única unidad (como un país, una empresa
o un hospital) es objeto de una intervención o es expuesto a un suceso. En lugar de
comparar esta unidad tratada con un grupo de unidades no tratadas, el método
utiliza información sobre las características de la unidad tratada y las unidades no
tratadas para construir una unidad de comparación sintética o artificial, ponderando
cada unidad no tratada de tal manera que la unidad de comparación sintética se
parezca todo lo posible a la unidad tratada. Esto requiere una larga serie de observa-
ciones a lo largo del tiempo, tanto de las características de la unidad tratada como de
las unidades no tratadas. Esta combinación de unidades de comparación en una
unidad sintética proporciona una mejor comparación para la unidad tratada que
cualquier unidad no tratada individualmente.
Métodos mixtos. Enfoque analítico que combina datos cuantitativos y cualitativos.
Minería de datos. Práctica de manipular los datos en busca de resultados concretos.
Monitoreo. Proceso continuo de recopilar y analizar información para evaluar el
desempeño de un proyecto, un programa o una política. El monitoreo suele hacer un
seguimiento de los insumos, actividades y productos, aunque ocasionalmente también
incluye los resultados. Se utiliza para fundamentar la gestión y las decisiones diarias.
También se puede emplear para hacer un seguimiento del desempeño en relación
con los resultados previstos, establecer comparaciones entre programas y analizar
las tendencias a lo largo del tiempo.
Muestra aleatoria. Muestra extraída a partir de un muestreo probabilístico, por lo
cual cada unidad en el marco muestral tiene una probabilidad conocida de ser
extraída. Seleccionar una muestra aleatoria es la mejor manera de evitar una muestra
Glosario 369
potencia son 0,8 y 0,9. Los niveles altos de potencia son más conservadores, lo que
significa que hay una baja probabilidad de no detectar los impactos reales del
programa.
Potencia estadística. La potencia de una prueba estadística es la probabilidad de
que la prueba rechace la hipótesis nula cuando la hipótesis alternativa es verdadera
(es decir, que no se cometerá un error de tipo II). A medida que la potencia aumenta,
la probabilidad de un error de tipo II disminuye. La probabilidad de un error de tipo
II se denomina tasa negativa falsa (). Por lo tanto, la potencia es igual a 1 - .
Producto. Productos, bienes y servicios tangibles producidos (suministrados)
directamente por las actividades de un programa. La generación de productos está
directamente bajo el control del organismo ejecutor del programa. El uso de los
productos por parte de los beneficiarios contribuye a cambios en los resultados.
Promoción aleatoria. Método de variables instrumentales para estimar los impac-
tos de un programa. El método asigna de forma aleatoria a un subgrupo de unidades
una promoción, o incentivo, para participar en el programa. La promoción aleatoria
busca aumentar la participación voluntaria en un programa en una submuestra de la
población seleccionada aleatoriamente. La promoción puede adoptar la forma de un
incentivo, estímulo o información adicional que motiva a las unidades a inscribirse
en el programa, sin influir directamente en el resultado de interés. De esta manera, el
programa puede quedar abierto a todas las unidades elegibles.
Prueba de placebo. Prueba falsificada que se utiliza para evaluar si los supuestos
de un método se mantienen. Por ejemplo, cuando se aplica el método de diferencias
en diferencias, se puede implementar una prueba de placebo utilizando un grupo de
tratamiento falso o un resultado falso, es decir: un grupo o resultado que se sabe que
no se ve afectado por el programa. Las pruebas de placebo no pueden confirmar que
los supuestos sean válidos, pero pueden poner de manifiesto los casos en que los
supuestos no se sostienen.
Prueba de significancia. Prueba de si la hipótesis alternativa alcanza el nivel
predeterminado de significancia con el fin de que esta se acepte de preferencia a la
hipótesis nula. Si una prueba de significancia da un valor p menor que el nivel de
significancia estadística (), la hipótesis nula es rechazada.
Puntaje de propensión. En el contexto de la evaluación de impacto, el puntaje de
propensión es la probabilidad de que una unidad participe en el programa sobre la
base de las características observables. Esta puntuación es un número real entre 0 y
1 que resume la influencia de todas las características observables en la probabilidad
de inscribirse en el programa.
Resultado. Resultado de interés que se mide a nivel de los beneficiarios del pro-
grama. Resultados que deben alcanzarse una vez que la población beneficiaria utilice
los productos del proyecto. Los resultados no están directamente bajo el control de
un organismo ejecutor del programa. En ellos influye tanto la implementación de un
programa (las actividades y productos que genera) como las respuestas de las conduc-
tas de los beneficiarios expuestos a ese programa (el uso que los beneficiarios hacen
de los beneficios a los que están expuestos). Un resultado puede ser intermedio o
Glosario 371
Tratamiento. Véase intervención.
Tratamiento en los tratados (TOT, por sus siglas en inglés). Las estimaciones
TOT miden la diferencia en los resultados entre las unidades que en efecto reciben el
tratamiento y el grupo de comparación.
Unidad. Persona, hogar, comunidad, empresa, escuela, hospital u otra unidad de
observación que pueda ser objeto de un programa o verse afectada por él.
Validez externa. Una evaluación es externamente válida si la muestra de la evalua-
ción representa con precisión a la población de unidades elegibles. Los resultados de
la evaluación luego se pueden generalizar a la población de unidades elegibles.
Estadísticamente, para que una evaluación de impacto sea externamente válida, la
muestra de la evaluación debe ser representativa de la población de interés. Véase
también validez interna.
Validez interna. Una evaluación es internamente válida si proporciona una
estimación precisa del contrafactual mediante un grupo de comparación válido.
Variable. En la terminología estadística, se trata de un símbolo que representa un
valor que puede variar.
Variable dependiente. Normalmente, es la variable de resultado. Se trata de la
variable que hay que explicar, por oposición a las variables explicativas.
Variable explicativa. También conocida como variable “independiente”. Se trata de
una variable utilizada en el lado derecho de una regresión para ayudar a explicar la
variable dependiente en el lado izquierdo de la regresión.
Variable instrumental (VI). También conocida como instrumento. Se basa en el uso
de una fuente externa de variación para determinar la probabilidad de participación
en el programa cuando la participación en el mismo está relacionada con los resulta-
dos potenciales. El instrumento se encuentra fuera del control de los participantes y
no tiene relación con las características de los mismos.
Variables no observadas. Se trata de características no observables. Pueden
incluir particularidades como la motivación, las preferencias u otros rasgos de la
personalidad que son difíciles de medir.