Camilonchi

La evaluación de
impacto en la
práctica
Segunda edición
Se recomienda visitar el sitio web del libro
La evaluación de impacto en la práctica en
http://www.worldbank.org/ieinpractice. El
sitio web contiene materiales de apoyo, e
incluye soluciones para las preguntas del
estudio de caso HISP del libro, así como la
correspondiente base de datos y el código
de análisis del software Stata; un manual
técnico que proporciona un tratamiento más
formal del análisis de datos; presentaciones de
PowerPoint relacionadas con los capítulos; una
versión en línea del libro con hipervínculos a los
sitios web, y enlaces con otros materiales.
Este libro ha sido posible gracias al generoso

apoyo del Fondo Estratégico de Evaluación
de Impacto (SIEF, por sus siglas en inglés:
Strategic Impact Evaluation Fund ). Lanzado
en 2012 con apoyo del Departamento para el
Desarrollo Internacional del Reino Unido, el
SIEF es un programa de alianzas que promueve
la elaboración de políticas públicas basadas en
la evidencia. Actualmente se centra en cuatro
ámbitos cruciales para un desarrollo humano
saludable: educación básica, sistemas de salud
y prestación de servicios, desarrollo infantil
temprano y nutrición, y agua y saneamiento.
El SIEF funciona en todo el mundo, sobre
todo en países de bajos ingresos, aportando
conocimientos expertos sobre la evaluación de
impacto, y evidencia para diversos programas y
equipos de elaboración de políticas públicas.
La evaluación
de impacto en
la práctica
Segunda edición
Paul J. Gertler, Sebastián Martínez,

Patrick Premand, Laura B. Rawlings
y Christel M. J. Vermeersch
© 2017 Banco Internacional para la Reconstrucción y el Desarrollo/Banco Mundial
1818 H Street NW, Washington, DC 20433
Teléfono: 202-473-1000; Internet: www.worldbank.org
Algunos derechos reservados
1 2 3 4 20 19 18 17
Los hallazgos, interpretaciones y conclusiones recogidas en esta obra no reflejan necesariamente el punto de vista
del Banco Mundial ni de su Directorio Ejecutivo, del Banco Interamericano de Desarrollo, de su Directorio Ejecutivo
ni de los gobiernos que representan. El Banco Mundial y el Banco Interamericano de Desarrollo no garantizan la
precisión de los datos incluidos en esta obra. Las fronteras, colores, denominaciones y otra información de cualquier
mapa en esta obra no implican ningún juicio por parte del Banco Mundial ni el Banco Interamericano de Desarrollo
en relación con el estatus legal de cualquier territorio ni la aprobación ni aceptación de dichas fronteras.
Ningún contenido de esta obra constituirá o será considerado como una limitación ni renuncia de los privilegios e
inmunidades del Banco Mundial ni del Banco Interamericano de Desarrollo, privilegios e inmunidades específica-
mente reservados.
Derechos y permisos
Esta obra está disponible bajo la licencia de atribución de Creative Commons 3.0 IGO (CC BY 3.0 IGO) http://
creativecommons.org/licenses/by/3.0/igo. En el marco de la licencia de atribución Creative Commons, se permite
copiar, distribuir, transmitir y adaptar esta obra, incluso para objetivos comerciales, bajo las siguientes condiciones:
Atribución: se ruega citar la obra de la siguiente manera: Gertler, Paul J., Sebastián Martínez, Patrick Premand, Laura
B. Rawlings y Christel M. J. Vermeersch. 2017. La evaluación de impacto en la práctica, Segunda edición. Washington,
DC: Banco Interamericano de Desarrollo y Banco Mundial. doi:10.1596/978-1-4648-0888-3. Licencia de atribución:
Creative Commons CC BY 3.0 IGO
Traducciones: Si se procede a una traducción de esta obra, se ruega añadir la siguiente exención de responsabilidad
con la atribución: Esta traducción no es una creación del Banco Mundial y no se debería considerar una traducción oficial
del Banco Mundial. El Banco Mundial no será responsable de ningún contenido o error en esta traducción.
Adaptaciones: Si se crea una adaptación de esta obra, se ruega añadir la siguiente exención de responsabilidad o con la
siguiente atribución: Ésta es una adaptación de una obra original del Banco Mundial. Las ideas y opiniones expresadas en
la adaptación son responsabilidad exclusiva del autor o de los autores de la adaptación y no han sido refrendadas por el
Banco Mundial.
Contenidos de terceros: El Banco Mundial no es dueño necesariamente de cada componente del contenido de este
trabajo. Por lo tanto, el Banco Mundial no garantiza que el uso de cualquier componente individual o parte propiedad
de terceros contenido en la obra no vulnerará los derechos de esos terceros. El riesgo de reclamaciones que resulten de
dicha vulneración incumbe solo a usted. Si quiere reutilizar un componente de la obra, es responsabilidad suya
determinar si se requiere una autorización para esa reutilización y para obtener permiso del dueño de los derechos de
autor. Los ejemplos de los componentes pueden incluir cuadros, gráficos o imágenes, si bien no están limitados a ellos.
Todas las consultas sobre derechos y licencias deberán dirigirse a la División de Publicación y Conocimiento, Banco
Mundial, 1818 H Street NW, Washington, DC 20433, EE.UU.; fax: 202-522-2625; e-mail: pubrights@worldbank.org.
ISBN (papel): 978-1-4648-0888-3
ISBN (electrónica): 978-1-4648-0989-7
DOI: 10.1596/978-1-4648-0888-3
Ilustración: C. Andrés Gómez-Peña y Michaela Wieser
Diseño de la tapa: Critical Stages
CONTENIDOS
Prólogo xv
Agradecimientos xxi
Acerca de los autores xxiii
Abreviaturas xxvii
PRIMERA PARTE. INTRODUCCIÓN A

LA EVALUACIÓN DE IMPACTO 1
Capítulo 1. ¿Por qué evaluar? 3

La formulación de políticas basada en evidencia 3
¿Qué es la evaluación de impacto? 7
Evaluación de impacto prospectiva versus evaluación retrospectiva 10
Estudios de eficacia y estudios de efectividad 12
Enfoques complementarios 14
Consideraciones éticas con respecto a la evaluación de impacto 22
La evaluación de impacto en las decisiones de políticas 24
La decisión de llevar a cabo una evaluación de impacto 29
Capítulo 2. La preparación de una evaluación 35

Pasos iniciales 35
Construcción de una teoría del cambio 36
Desarrollo de una cadena de resultados 38
La especificación de las preguntas de la evaluación 40
La selección de indicadores de resultados y desempeño 46
Lista de verificación: datos para los indicadores 47
SEGUNDA PARTE. CÓMO EVALUAR 51
Capítulo 3. Inferencia causal y contrafactuales 53

Inferencia causal 53
v
El contrafactual 55
Dos estimaciones falsas del contrafactual 60
Capítulo 4. La asignación aleatoria 71

La evaluación de programas basados en reglas de asignación 71
La asignación aleatoria del tratamiento 72
Lista de verificación: la asignación aleatoria 91
Capítulo 5. Las variables instrumentales 99

La evaluación de programas cuando no todos cumplen
su asignación 99
Tipos de estimaciones de impacto 100
El cumplimiento imperfecto 102
Promoción aleatoria como variable instrumental 112
Lista de verificación: promoción aleatoria como
variable instrumental 122
Capítulo 6. Diseño de regresión discontinua 125

Evaluación de programas que utilizan un índice
de elegibilidad 125
El diseño de regresión discontinua difuso 131
Verificación de la validez del diseño de regresión discontinua 132
Limitaciones e interpretaciones del método de
diseño de regresión discontinua 137
Lista de verificación: diseño de regresión discontinua 139
Capítulo 7. Diferencias en diferencias 143

Evaluación de un programa cuando la regla de asignación
es menos clara 143
El método de diferencias en diferencias 144
¿Qué utilidad tiene el método de diferencias en diferencias? 148
El supuesto de “tendencias iguales” en el método de
diferencias en diferencias 150
Limitaciones del método de diferencias en diferencias 156
Verificación: diferencias en diferencias 156
Capítulo 8. Pareamiento 159

Construcción de un grupo de comparación artificial 159
Pareamiento por puntajes de propensión 161
La combinación del pareamiento con otros métodos 164
Limitaciones del método de pareamiento 173
Verificación: el pareamiento 174
vi La evaluación de impacto en la práctica
Capítulo 9. Cómo abordar las dificultades metodológicas 177
Efectos heterogéneos del tratamiento 177
Efectos no intencionados en la conducta 178
Imperfección del cumplimiento 179
El efecto de derrame 181
El desgaste 188
Programación en el tiempo y persistencia de los efectos 191
Capítulo 10. Evaluación de programas multifacéticos 195

Evaluación de programas que combinan diversas opciones
de tratamiento 195
Evaluación de programas con diferentes niveles de tratamiento 196
Evaluación de múltiples intervenciones 199
TERCERA PARTE. CÓMO IMPLEMENTAR UNA

EVALUACIÓN DE IMPACTO 205
Capítulo 11. Elección de un método de evaluación de impacto 207

¿Qué método usar en un determinado programa? 207
Cómo las reglas operativas de un programa pueden contribuir
a elegir un método de evaluación de impacto 208
Una comparación de métodos de evaluación de impacto 214
Cómo encontrar la unidad de intervención más pequeña factible 218
Capítulo 12. Gestión de una evaluación de impacto 223

Gestión del equipo, del tiempo y del presupuesto de una evaluación 223
Roles y responsabilidades de los equipos de investigación
y de políticas públicas 224
Establecer una colaboración 231
Cómo programar una evaluación en el tiempo 237
Cómo elaborar un presupuesto para una evaluación 240
Capítulo 13. La ética y la ciencia en la evaluación

de impacto 257
La gestión de evaluaciones éticas y creíbles 257
La ética de llevar a cabo evaluaciones de impacto 258
Garantizar evaluaciones fiables y creíbles mediante la ciencia abierta 264
Lista de verificación: una evaluación de impacto ética y creíble 271
Capítulo 14. Divulgación de resultados y generación

de impacto en las políticas públicas 275
Una base de evidencia sólida para las políticas públicas 275
Elaboración a la medida de una estrategia de comunicación

para diferentes públicos 279
Divulgación de los resultados 283
CUARTA PARTE. CÓMO OBTENER DATOS

PARA UNA EVALUACIÓN DE IMPACTO 289
Capítulo 15. La elección de una muestra 291

El muestreo y los cálculos de potencia 291
Elaboración de una muestra 291
La decisión sobre el tamaño de la muestra de una evaluación
de impacto: cálculos de potencia 297
Capítulo 16. Encontrando fuentes adecuadas de datos 323

Tipos de datos necesarios 323
La utilización de datos cuantitativos existentes 326
La recopilación de datos de nuevas encuestas 332
Capítulo 17. Conclusiones 355

Las evaluaciones de impacto: ejercicios complejos pero valiosos 355
Lista de verificación: elementos centrales de una evaluación
de impacto bien diseñada 356
Lista de verificación: recomendaciones para mitigar riesgos
habituales al llevar adelante una evaluación de impacto 357
Glosario 361
Recuadros
1.1 Cómo una evaluación exitosa puede promover la sostenibilidad
política de un programa de desarrollo 5
1.2 El impacto de las políticas de un modelo preescolar innovador 7
1.3 Pruebas de la capacidad generalizable de los resultados 13
1.4 Simulación de posibles efectos del proyecto a través
del modelado estructural 16
1.5 Un método mixto de evaluación en acción 17
1.6 Fundamentos para una ampliación a escala nacional
mediante una evaluación de procesos en Tanzania 19
1.7 La evaluación de costo-efectividad 21
1.8 Evaluación de programas innovadores 25
1.9 La evaluación de alternativas de diseño de programas 26
1.10 El enfoque de evaluaciones de impacto de clusters 28
2.1 La articulación de una teoría del cambio: de los pisos
de cemento a la felicidad en México 37
2.2 Experimentos de mecanismo 41
2.3 Una reforma de las matemáticas en la enseñanza secundaria:
elaboración de una cadena de resultados y una pregunta de la
evaluación 43
3.1 El problema del contrafactual: la “señorita Única” y el
programa de transferencias condicionadas 56
4.1 La asignación aleatoria como un valioso instrumento operativo 73
4.2 La asignación aleatoria como regla de selección de
un programa: las transferencias condicionadas y la
educación en México 78
4.3 Asignación aleatoria de donaciones para mejorar las
perspectivas de empleo juvenil en el norte de Uganda 79
4.4 Asignación aleatoria de intervenciones en abastecimiento
de agua y saneamiento en zonas rurales de Bolivia 79
4.5 Asignación aleatoria de protección del agua de pozos
para mejorar la salud en Kenia 80
4.6 Asignación aleatoria e información a propósito de los riesgos
del VIH para reducir el embarazo adolescente en Kenia 81
5.1 El uso de variables instrumentales para evaluar el impacto
de Plaza Sésamo en la preparación escolar 101
5.2 Variables instrumentales para lidiar con la falta de cumplimiento
en un programa de vales escolares en Colombia 110
5.3 Promoción de inversiones en infraestructura educativa
en Bolivia 118
6.1 Uso del diseño de regresión discontinua para evaluar el
impacto de la reducción de las tarifas escolares en los
índices de matriculación en Colombia 126
6.2 Redes de protección social basadas en un índice de
pobreza en Jamaica 130
6.3 El efecto en el desempeño escolar de la agrupación de
alumnos según sus puntuaciones en las pruebas
educativas en Kenia 133
7.1 Utilización del método DD para entender el impacto de
los incentivos electorales en las tasas de abandono
escolar en Brasil 145
7.2 Aplicación del método de diferencias en diferencias para
estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina 149
7.3 Comprobando el supuesto de tendencias iguales:
privatización del agua y mortalidad infantil en Argentina 153
Contenidos ix
7.4 Poniendo a prueba el supuesto de tendencias iguales:
la construcción de escuelas en Indonesia 154
8.1 Diferencias en diferencias pareadas: caminos rurales
y desarrollo del mercado local en Vietnam 165
8.2 Pareamiento de diferencias en diferencias: suelos de
cemento, salud infantil y felicidad de las madres en México 166
8.3 El método de control sintético: los efectos económicos
de un conflicto terrorista en España 168
9.1 Cuentos tradicionales de la evaluación de impacto:
el efecto Hawthorne y el efecto John Henry 178
9.2 Externalidades negativas debidas a efectos de equilibrio
general: asistencia para la colocación laboral y resultados
del mercado de trabajo en Francia 183
9.3 Trabajando con los efectos de derrame: remedios
antiparasitarios, externalidades y educación en Kenia 184
9.4 Evaluación de los efectos de derrame: transferencias
condicionadas y derrames en México 187
9.5 El desgaste en estudios con seguimiento a largo plazo:
desarrollo infantil temprano y migración en Jamaica 189
9.6 Evaluación de los efectos a largo plazo: subsidios y adopción
de redes antimosquitos tratadas con insecticidas en Kenia 191
10.1 Prueba de la intensidad de un programa para mejorar la
adhesión a un tratamiento antirretroviral 198
10.2 Pruebas de alternativas de los programas para monitorear
la corrupción en Indonesia 199
11.1 Programas de transferencias monetarias condicionadas y
el nivel mínimo de intervención 221
12.1 Principios rectores de la participación de los equipos de
políticas públicas y de evaluación 228
12.2 Descripción general de un plan de evaluación de impacto 229
12.3 Ejemplos de modelos de equipos de investigación
y de políticas públicas 234
13.1 Registro de pruebas en las ciencias sociales 267
14.1 El impacto en las políticas públicas de un modelo
innovador de educación preescolar en Mozambique 277
14.2 Instrumentos de extensión y divulgación 284
14.3 La divulgación efectiva de las evaluaciones de impacto 285
14.4 Divulgación de las evaluaciones de impacto en línea 286
14.5 Blogs de evaluación de impacto 287
15.1 El muestreo aleatorio no es suficiente para la evaluación
de impacto 295
x La evaluación de impacto en la práctica

16.1 Elaboración de una base de datos en la evaluación
del Plan Nacer de Argentina 330
16.2 Utilización de datos censales para reevaluar el PRAF
en Honduras 331
16.3 Diseño y formato de los cuestionarios 338
16.4 Algunas ventajas y desventajas de la recopilación
electrónica de datos 342
16.5 Recopilación de datos para la evaluación de las pruebas
piloto de atención a crisis en Nicaragua 348
16.6 Directrices para la documentación y el almacenamiento
de datos 349
Gráficos
2.1 Los elementos de una cadena de resultados 39
B2.2.1 Identificación de un experimento de mecanismo en una
cadena de resultados más larga 42
B2.3.1 Cadena de resultados para la reforma de la currícula
de matemática en la escuela secundaria 43
2.2 La cadena de resultados del HISP 45
3.1 El clon perfecto 57
3.2 Un grupo de comparación válido 59
3.3 Estimaciones antes-después de un programa de microfinanzas 61
4.1 Características de los grupos bajo tratamiento con
asignación aleatoria 76
4.2 Muestra aleatoria y asignación aleatoria de tratamiento 81
4.3 Pasos para la asignación aleatoria del tratamiento 85
4.4 Asignación aleatoria del tratamiento mediante hoja de cálculo 87
4.5 Estimación del impacto con la asignación aleatoria 90
5.1 Asignación aleatoria con cumplimiento imperfecto 106
5.2 Estimación del efecto local promedio del tratamiento bajo
asignación aleatoria con cumplimiento imperfecto 107
5.3 Proceso de promoción aleatoria 116
5.4 Estimación del efecto local promedio del tratamiento bajo la
promoción aleatoria 117
6.1 Producción de arroz, fincas pequeñas vs. fincas grandes
(línea de base) 128
6.2 Producción de arroz, fincas pequeñas vs. fincas grandes
(seguimiento) 129
6.3 Cumplimiento de la asignación 132
6.4 Manipulación del índice de elegibilidad 133
Contenidos xi
6.5 HISP: densidad de los hogares, según el índice de
pobreza de línea de base 135
6.6 Participación en el HISP, según el índice de pobreza
de línea de base 135
6.7 Índice de pobreza y gastos en salud: el HISP dos años después 136
7.1 El método de diferencias en diferencias 146
7.2 Diferencias en diferencias cuando las tendencias de
los resultados son diferentes 151
8.1 Pareamiento exacto en cuatro características 160
8.2 Pareamiento por puntajes de propensión y rango común 162
8.3 Pareamiento para el HISP: rango común 170
9.1 Un ejemplo clásico de efecto de derrame: externalidades
positivas de la administración de remedios antiparasitarios
a los niños de las escuelas 186
10.1 Pasos para la asignación aleatoria de dos niveles de tratamiento 197
10.2 Pasos para la asignación aleatoria de dos intervenciones 200
10.3 Diseño híbrido para un programa con dos intervenciones 201
15.1 Uso de una muestra para inferir las características promedio
de una población de interés 292
15.2 Un marco muestral válido cubre el conjunto de la población
de interés 293
B15.1.1 Muestreo aleatorio entre grupos no comparables de
participantes y no participantes 296
B15.1.2 Asignación aleatoria de los beneficios de un programa
entre un grupo de tratamiento y un grupo de comparación 297
15.3 Una muestra más grande tiene más probabilidades de
parecerse a la población de interés 300
Cuadros
3.1 Evaluación del HISP según comparación antes-después 64
3.2 Impacto del HISP según comparación antes-después
(análisis de regresión) 64
3.3 Evaluación del HISP según comparación inscritos-no inscritos
(comparación de medias) 67
3.4 Evaluación del HISP según comparación inscritos-no inscritos
4.1 Evaluación del HISP: balance entre los pueblos de
tratamiento y de comparación en la línea de base 93
4.2 Evaluación del HISP según la asignación aleatoria
xii La evaluación de impacto en la práctica

4.3 Evaluación del HISP según la asignación aleatoria
5.1 Evaluación del HISP según la promoción aleatoria
5.2 Evaluación del HISP según la promoción aleatoria
6.1 Evaluación del HISP: diseño de regresión discontinua
con análisis de regresión 137
7.1 Cálculo del método de diferencias en diferencias 147
7.2 Evaluación del HISP: diferencias en diferencias
7.3 Evaluación del HISP: diferencias en diferencias (análisis
de regresión) 155
8.1 Estimación del puntaje de propensión a partir de
características observables de la línea de base 169
8.2 Evaluación del HISP: pareamiento de las características
de línea de base y comparación de medias 171
8.3 Evaluación del HISP: pareamiento de las características
de línea de base y análisis de regresión 171
8.4 Evaluación del HISP: método de diferencias en diferencias
combinado con pareamiento en las características de línea
de base 172
B10.1.1 Resumen del diseño del programa 198
11.1 Relación entre las reglas operativas de un programa y
los métodos de evaluación de impacto 211
11.2 Comparación de métodos de evaluación de impacto 215
12.1 Costo de las evaluaciones de impacto de una selección de
proyectos con apoyo del Banco Mundial 241
12.2 Costos desagregados de una selección de proyectos
con apoyo del Banco Mundial 242
12.3 Ejemplo de presupuesto para una evaluación
de impacto 250
13.1 Asegurar información fiable y creíble para las políticas
mediante la ciencia abierta 265
14.1 Participación de grupos clave en el impacto en las políticas:
por qué, cuándo y cómo 280
15.1 Ejemplos de clusters 304
15.2 Evaluación del HISP+: tamaño requerido de la muestra
para identificar diversos efectos mínimos detectables,
potencia = 0,9 309
Contenidos xiii
para identificar diversos efectos mínimos detectables,
potencia = 0,8 310
para detectar diversos efectos mínimos deseados
(aumento de la tasa de hospitalización) 311
para identificar diversos efectos mínimos detectables
(disminución de los gastos del hogar en salud) 314
para detectar un impacto mínimo de US$2 en diversas
cantidades de clusters 315
xiv La evaluación de impacto en la práctica

PRÓLOGO
Este libro ofrece una introducción accesible al tema de la evaluación de

impacto y su práctica en el desarrollo. Proporciona orientaciones provecho-
sas para diseñar e implementar evaluaciones de impacto, junto con una
visión general no técnica de los métodos de evaluación de impacto.
Esta es la segunda edición del manual de La evaluación de impacto en la
práctica. Publicado por primera vez en 2011, el manual ha sido usado exten-
samente por comunidades de desarrollo y académicas en todo el mundo. La
primera edición está disponible en inglés, francés, portugués y español.
La versión actualizada abarca las técnicas más recientes para evaluar
programas e incluye consejos de implementación de última generación, así
como un conjunto ampliado de ejemplos y estudios de casos que se basan en
recientes intervenciones de desarrollo. También incluye nuevos materiales
sobre la ética de la investigación y alianzas para llevar a cabo evaluaciones
de impacto. A lo largo del libro, los estudios de casos ilustran aplicaciones de
las evaluaciones de impacto. La publicación incluye enlaces de material
didáctico complementario disponible en línea.
El enfoque de la evaluación de impacto que se vuelca en este libro es
sobre todo intuitivo. Hemos intentado minimizar las anotaciones técnicas.
Los métodos se basan directamente en la investigación aplicada en ciencias
sociales y comparten numerosos elementos comunes a los métodos de
investigación que se emplean en las ciencias naturales. En este sentido, la
evaluación de impacto reúne herramientas de investigación empírica
ampliamente utilizadas en economía y en otras ciencias sociales, junto con
las realidades operativas y de economía política de la implementación de
políticas públicas y práctica de desarrollo.
Nuestro enfoque de la evaluación de impacto también es pragmático:
pensamos que deberían definirse los métodos más apropiados para ade-
cuarse al contexto operativo, y no a la inversa. La mejor manera de lograr
xv
esto es al comienzo de un programa, mediante el diseño de evaluaciones de
impacto prospectivas que se incluyan en la implementación de un proyecto.
Sostenemos que alcanzar un consenso entre las principales partes interesa-
das y la definición de un diseño de evaluación adecuado al contexto político
y operativo es tan importante como el propio método. También creemos que
las evaluaciones de impacto deberían ser claras a propósito de sus limitacio-
nes y sus advertencias. Por último, alentamos encarecidamente a los respon-
sables de las políticas públicas y a los administradores de los programas a
considerar las evaluaciones de impacto como parte de una teoría bien desa-
rrollada del cambio que establece con claridad las vías causales mediante las
cuales un programa funciona para elaborar productos e influir en los resul-
tados finales, y los alentamos a combinar las evaluaciones de impacto con
enfoques de monitoreo y de evaluación complementarios con el fin de obte-
ner un cuadro completo de los resultados.
Nuestras experiencias y lecciones sobre cómo llevar a cabo evaluaciones
de impacto en la práctica se basan en la enseñanza y en el trabajo con cientos
de socios idóneos de los ámbitos gubernamentales, académicos y del desa-
rrollo. El libro se fundamenta colectivamente en décadas de experiencia en
el trabajo con evaluaciones de impacto en casi todos los rincones del pla-
neta, y está dedicado a las futuras generaciones de profesionales y responsa-
bles de las políticas públicas.
Esperamos que estas páginas constituyan un valioso recurso para la
comunidad internacional de desarrollo, las universidades y los responsables
de las políticas públicas que intentan construir evidencia válida en torno a lo
que funciona en el desarrollo. Más y mejores evaluaciones de impacto con-
tribuirán a fortalecer la base de evidencia para las políticas y los programas
de desarrollo en todo el mundo. Tenemos la esperanza de que si los gobier-
nos y los profesionales del desarrollo pueden tomar decisiones de políticas
públicas sobre la base de la evidencia, incluida la evidencia generada a tra-
vés de la evaluación de impacto, los recursos para el desarrollo se destinarán
de manera más efectiva para reducir la pobreza y mejorar las vidas de las
personas.
Hoja de ruta de los contenidos del libro
En la primera parte, “Introducción a la evaluación de impacto” (capítulos 1

y 2), se explica por qué una evaluación de impacto puede llevarse a cabo y
cuándo merece la pena hacerlo. Allí se revisan los diversos objetivos que una
evaluación de impacto puede lograr y se subrayan las principales preguntas
relativas a las políticas públicas que una evaluación puede abordar. Se insiste
xvi La evaluación de impacto en la práctica

en la necesidad de definir rigurosamente una teoría del cambio que explique
los canales a través de los cuales los programas pueden influir en los resulta-
dos finales. Se insta a una consideración cuidadosa de los indicadores de
resultados y del tamaño de los efectos anticipados.
En la segunda parte, “Cómo evaluar” (capítulos 3 al 10), se analizan las
diversas metodologías que producen grupos de comparación que se pueden
utilizar para estimar los impactos de un programa. Se empieza por introdu-
cir el contrafactual como la piedra angular de cualquier evaluación de
impacto, explicando las propiedades que debe tener la estimación del
mismo, y proporcionando ejemplos de estimaciones inválidas del contrafac-
tual. Posteriormente, se presenta un menú de las opciones de evaluación de
impacto que pueden producir estimaciones válidas del contrafactual. En
particular, se aborda la intuición básica que subyace a las metodologías de
evaluación de impacto, a saber: la asignación aleatoria, las variables instru-
mentales, el diseño de regresión discontinua, las diferencias en diferencias y el
pareamiento. Se establece por qué y cómo cada método puede producir una
estimación válida del contrafactual, en qué contexto de las políticas públicas
se puede implementar cada uno, así como también sus principales
limitaciones.
A lo largo de esta parte del libro, se utiliza un estudio de caso –el Programa
de Subsidios de Seguros de Salud (HISP, por sus siglas en inglés: Health
Insurance Subsidy Program)– para ilustrar cómo se pueden aplicar los méto-
dos. Además, se ofrecen ejemplos específicos de las evaluaciones de impacto
que han utilizado cada método. La segunda parte concluye con un debate
sobre cómo combinar los métodos y abordar problemas que pueden surgir
durante la implementación, reconociendo que los diseños de evaluación de
impacto a menudo no se implementan exactamente como se había planeado
originalmente. En este contexto, se analizan ciertos problemas comunes que
suelen experimentarse durante la implementación, lo que incluye el cum-
plimiento imperfecto o los efectos de derrame, y se debate cómo abordar
estas dificultades. El capítulo 10 concluye con orientaciones sobre evalua-
ciones de programas multifacéticos, sobre todo aquellos con diferentes
niveles de tratamiento y diseños cruzados.
La tercera parte, “Cómo implementar una evaluación de impacto”
(capítulos 11 a 14), se centra precisamente en cómo llevar adelante la eva-
luación. En el capítulo 11, se detalla cómo utilizar las reglas del funciona-
miento de un programa –es decir, los recursos disponibles del programa,
los criterios para seleccionar a los beneficiarios y la programación en el
tiempo para la implementación– como la base para seleccionar un método
de evaluación de impacto. Se define un marco sencillo para determinar
cuál de las metodologías de evaluación de impacto presentadas en la
Prólogo xvii
segunda parte es la más adecuada para un determinado programa, de
acuerdo con sus reglas operativas. En el capítulo 12 se aborda la relación
entre el equipo de investigación y el equipo de políticas públicas, y sus
respectivos roles para conformar conjuntamente un equipo de evalua-
ción. Se examina la diferencia entre independencia y ausencia de sesgo, y
se ponen de relieve ámbitos que pueden ser delicados para llevar a cabo
una evaluación de impacto. Se ofrece orientación sobre cómo gestionar
las expectativas, se destacan algunos de los riesgos habitualmente pre-
sentes en la realización de evaluaciones de impacto, y se brindan suge-
rencias sobre cómo manejarlos. El capítulo concluye con una visión
general de cómo gestionar las actividades de la evaluación de impacto, lo
que incluye la creación de un equipo de evaluación, la programación en el
tiempo de la misma, el presupuesto, la captación de fondos y la recopila-
ción de datos. En el capítulo 13 se proporciona una visión general de la
ética y la ciencia de la evaluación de impacto, lo cual incluye la importan-
cia de no negar beneficios a los beneficiarios elegibles en aras de la eva-
luación; en el capítulo también se resalta el rol de las juntas de revisión
institucional, que aprueban y monitorean la investigación con sujetos
humanos, y se aborda la importancia de registrar las evaluaciones
siguiendo la práctica de la ciencia abierta, de acuerdo con la cual los datos
se ponen a disposición del público para posteriores investigaciones y
para replicar resultados. El capítulo 14 proporciona una visión novedosa
sobre cómo utilizar las evaluaciones de impacto para fundamentar las
políticas públicas, incluyendo consejos sobre cómo conseguir que los
resultados sean relevantes; un debate sobre el tipo de productos que las
evaluaciones de impacto pueden y deben producir, y orientación sobre
cómo extraer y divulgar las conclusiones para maximizar el impacto de
las políticas públicas.
La cuarta parte, “Cómo obtener datos para una evaluación de impacto”
(capítulos 15 a 17), se ocupa de la forma de recopilar datos, lo que incluye
elegir la muestra y determinar el tamaño apropiado de la muestra de la eva-
luación (capítulo 15), así como también encontrar fuentes de datos adecua-
dos (capítulo 16). El capítulo 17 concluye y proporciona algunas listas de
verificación.
Material complementario en línea
En el sitio web de la evaluación de impacto en la práctica se ofrecen mate-

riales de apoyo (http://www.worldbank.org/ieinpractice), incluyendo solu-
ciones a las preguntas de los estudios de casos del HISP, la correspondiente
xviii La evaluación de impacto en la práctica

base de datos y el código de análisis del software Stata, así como un manual
técnico que proporciona un tratamiento más formal del análisis de datos.
Los materiales también abarcan presentaciones de PowerPoint relaciona-
das con los capítulos, y versiones en línea del libro con hipervínculos a sitios
web y enlaces con otros materiales.
El sitio web de evaluación de impacto en la práctica también brinda vín-
culos con materiales relacionados con el Fondo Estratégico de Evaluación
de Impacto (SIEF, por sus siglas en inglés) del Banco Mundial, la iniciativa
Desarrollo de la Evaluación de Impacto (DIME, por sus siglas en inglés), de
la misma institución, y sitios web de manuales de evaluación de impacto, así
como el portal de evaluación de impacto del Banco Interamericano de
Desarrollo (BID) y el curso de métodos de evaluación de impacto aplicados
en la Universidad de California, Berkeley.
Desarrollo de La evaluación de impacto en la

práctica
La primera edición del libro La evaluación de impacto en la práctica se basaba

en un conjunto central de materiales didácticos desarrollados para los semi-
narios sobre “Cómo convertir las promesas en evidencia”, organizados por la
Oficina del Economista Jefe para Desarrollo Humano, en asociación con uni-
dades regionales y con el Grupo de Investigación en Economía del Desarrollo
del Banco Mundial. En el momento de redactar la primera edición, el semi-
nario se había celebrado más de 20 veces en todas las regiones del mundo.
Los seminarios, y tanto la primera como la segunda edición de este
manual, han sido posibles gracias a las generosas ayudas del gobierno de
España, del Departamento para el Desarrollo Internacional del Reino Unido
(DFID) y de la Fundación del Fondo de Inversión para la Infancia (CIFF,
Reino Unido) a través de contribuciones al SIEF. La segunda edición tam-
bién se ha beneficiado del apoyo de la Oficina de Planificación Estratégica y
Efectividad en el Desarrollo del BID.
Esta segunda edición ha sido puesta al día para abarcar las técnicas más
actualizadas, así como consejos de implementación de última generación,
siguiendo los progresos alcanzados en este campo en los últimos años.
También hemos ampliado el conjunto de ejemplos y estudios de casos para
reflejar aplicaciones de amplio espectro de la evaluación de impacto en las
operaciones de desarrollo y destacar sus vínculos con las políticas públicas.
Por último, hemos incluido aplicaciones de técnicas de evaluación de
impacto con Stata, utilizando la base de datos del estudio de caso del HISP
como parte del material complementario en línea.
Prólogo xix
AGRADECIMIENTOS
Los materiales didácticos sobre los que se basa este libro han experimen-
tado numerosas versiones, y han sido enseñados por diversos y talentosos
profesores, todos los cuales han dejado su impronta en los métodos y en el
enfoque de la evaluación de impacto enunciados en el libro. Queremos agra-
decer y reconocer las contribuciones y los aportes sustanciales de diversos
profesores que han participado en los seminarios en los que se basaba la
primera edición, y que incluyen a Paloma Acevedo Alameda, Felipe Barrera,
Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro
Carneiro, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz,
Deon Filmer, Jed Friedman, Emanuela Galasso, Sebastián Galiani, Arianna
Legovini, Phillippe Leite, Gonzalo Hernández Licona, Mattias Lundberg,
Karen Macours, Juan Muñoz, Plamen Nikolov, Berk Özler, Nancy Qian,
Gloria M. Rubio, Norbert Schady, Julieta Trias, y Sigrid Vivo Guzmán.
Agradecemos los comentarios realizados por nuestros revisores pares en la
primera edición del libro (Barbara Bruns, Arianna Legovini, Dan Levy y
Emmanuel Skoufias) y la segunda edición (David Evans, Francisco Gallego,
Dan Levy y Damien de Walque), así como también las observaciones de
Gillette Hall. Deseamos asimismo expresar nuestro agradecimiento por los
esfuerzos de un talentoso equipo organizador, que incluye a Holly Balgrave,
Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana Ringland,
Adam Ross y Jennifer Sturdy.
Extendemos igualmente nuestro reconocimiento a todos los que partici-
paron en las transcripciones del borrador del seminario de julio de 2009
realizado en Beijing, China, en el que se basan partes de este libro, especial-
mente a Paloma Acevedo Alameda, Carlos Asenjo Ruiz, Sebastian Bauhoff,
Bradley Chen, Changcheng Song, Jane Zhang y Shufang Zhang.
Reconocemos a Garret Christensen y a la Berkeley Initiative for
Transparency in the Social Sciences, así como a Jennifer Sturdy y Elisa
Rothenbühler por sus aportes al capítulo 13. También agradecemos a Marina
xxi
Tolchinsky y Kristine Cronin por su excelente apoyo en la investigación; a
Cameron Breslin y Restituto Cárdenas por el respaldo en la programación; a
Marco Guzmán y Martin Ruegenberg por el diseño de las ilustraciones, y a
Nancy Morrison, Cindy A. Fisher, Fiona Mackintosh y Stuart K. Tucker por
el apoyo editorial durante la producción de la primera y la segunda edición
del libro.
Reconocemos y agradecemos el apoyo permanente y el entusiasmo por
este proyecto de nuestros directivos en el Banco Mundial y el Banco
Interamericano de Desarrollo, y especialmente al equipo del SIEF, entre
ellos Daphna Berman, Holly Blagrave, Restituto Cárdenas, Joost de Laat,
Ariel Fiszbein, Alaka Holla, Aliza Marcus, Diana-Iuliana Pirjol, Rachel
Rosenfeld y Julieta Trias. Estamos sumamente agradecidos por el apoyo
recibido de la administración del SIEF, incluyendo a Luis Benveniste, Joost
de Laat y Julieta Trias. Agradecemos igualmente a Andrés Gómez-Peña y
Michaela Wieser del Banco Interamericano de Desarrollo, y a Mary Fisk,
Patricia Katayama, y Mayya Revzina, del Banco Mundial, por su ayuda con
las comunicaciones y el proceso de publicación.
La producción de la segunda edición de este libro en su versión en espa-
ñol fue realizada por la Oficina de Planificación Estratégica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo. Reconocemos parti-
cularmente a Carola Álvarez y Arturo Galindo por su apoyo en esta inicia-
tiva. Quedamos endeudados con Andrés Gómez-Peña y Michaela Wieser
por su esfuerzo y dedicación en la coordinación del proceso de producción
editorial de este volumen. De igual manera, agradecemos especialmente a
Alberto Magnet por la traducción del libro al español, así como a Claudia M.
Pasquetti, a cargo de la edición y lectura de pruebas en dicho idioma. Cabe
también nuestro reconocimiento del aporte de los revisores técnicos de
cada uno de los capítulos en español: Paloma Acevedo, Jorge Marcelo
Franco Quincot, Gastón Gertner y Bibiana Taboada.
Por último, quisiéramos brindar nuestro reconocimiento a los partici-
pantes de los numerosos talleres, sobre todo los celebrados en Abiyán,
Accra, Adís Abeba, Amán, Ankara, Beijing, Berkeley, Buenos Aires, Cairo,
Ciudad de Panamá, Ciudad del Cabo, Cuernavaca, Dakar, Daca, Fortaleza,
Katmandú, Kigali, Lima, Madrid, Managua, Manila, Ciudad de México,
Nueva Delhi, Paipa, Pretoria, Rio de Janeiro, San Salvador, Santiago,
Sarajevo, Seúl, Sofía, Túnez y Washington, D.C.
Gracias a su interés, a sus inteligentes preguntas y a su entusiasmo,
hemos sido capaces de aprender paso a paso qué buscan los responsables de
las políticas públicas en las evaluaciones de impacto. Esperamos que este
libro refleje sus ideas.
xxii La evaluación de impacto en la práctica

ACERCA DE LOS AUTORES
Paul J. Gertler es profesor de economía en la cátedra Li Ka Shing de la

Universidad de California, Berkeley, donde imparte clases en la Escuela de
Negocios Haas y en la Escuela de Salud Pública. También es director cien-
tífico del Centro para una Acción Global Efectiva en la Universidad de
California. Se desempeñó como economista jefe en la Red de Desarrollo
Humano del Banco Mundial entre 2004 y 2007 y en la Cátedra Fundadora
de la Junta de Directores de la Iniciativa Internacional para la Evaluación
de Impacto (3ie) entre 2009 y 2012. En el Banco Mundial, dirigió los traba-
jos para institucionalizar y desarrollar la escala de la evaluación de impacto
para aprender acerca de aquello que funciona en el desarrollo humano. Ha
sido investigador principal en diversas evaluaciones de impacto multisitio,
entre ellas el programa de TCE, de México, Progresa-Oportunidades, y en
el sistema de salud Remuneración por Desempeño, de Ruanda. Posee un
doctorado en economía de la Universidad de Wisconsin, y se ha desempe-
ñado como docente en Harvard, en RAND y en la State University of New
York en Stony Brook.
Sebastián Martínez es economista principal en la Oficina de Planificación

Estratégica y Efectividad en el Desarrollo del Banco Interamericano de
Desarrollo (BID). Su trabajo se centra en el fortalecimiento de la base de
evidencia y en la efectividad en el desarrollo de los sectores social y de
infraestructura, incluyendo salud, protección social, mercados laborales,
agua y saneamiento, y vivienda y desarrollo urbano. Dirige un equipo
de economistas que lleva a cabo investigación sobre los impactos de los
programas y políticas públicas del desarrollo, apoya la implementación
de evaluaciones de impacto de las operaciones y trabaja en la mejora de
capacidades para los clientes y el personal. Antes de integrarse al BID,
trabajó seis años en el Banco Mundial, dirigiendo evaluaciones de progra-
mas sociales en América Latina y en África Subsahariana. Posee un
xxiii
doctorado en economía de la Universidad de California, Berkeley, con
una especialización en desarrollo y microeconomía aplicada.
Patrick Premand es economista senior en protección social y práctica glo-

bal laboral en el Banco Mundial. Dirige el trabajo analítico y operativo sobre
protección social y redes de protección; mercados laborales, empleo juvenil
y capacidad emprendedora, así como también desarrollo infantil temprano.
Su investigación se centra en construir evidencia sobre la efectividad de las
políticas de desarrollo a través de evaluaciones de impacto de programas
sociales y de desarrollo humano a gran escala. Ha ocupado diversos cargos
en el Banco Mundial, lo cual incluye la Unidad de Economía del Desarrollo
Humano de la región de África, la Oficina del Economista Jefe para
Desarrollo Humano y la Unidad de Pobreza de la región de América Latina
y el Caribe. Posee un doctorado en economía de la Universidad de Oxford.
Laura B. Rawlings es especialista líder en protección social en el Banco

Mundial, y ostenta más de 20 años de experiencia en el diseño, la implemen-
tación y la evaluación de programas de desarrollo humano. Administra tanto
las operaciones como la investigación, centrándose en el desarrollo de enfo-
ques innovadores para sistemas de protección social efectivos y escalables
en entornos de bajos recursos. Ha sido líder de equipo responsable de desa-
rrollar la Estrategia de Protección Social y Laboral 2012-2022 del Banco
Mundial y, anteriormente, administradora del Fondo Estratégico de
Evaluación de Impacto (SIEF). También se desempeñó como líder del sector
para desarrollo humano en Centroamérica, donde fue la responsable de ges-
tionar las carteras de salud, educación y protección social del Banco Mundial.
Comenzó su carrera en esta última institución, en el Grupo de Investigación
sobre el Desarrollo, donde trabajó en los programas de evaluación de impacto
de programas sociales. Ha trabajado en América Latina y el Caribe así como
en África Subsahariana, dirigiendo numerosas iniciativas de proyectos de
investigación en los ámbitos de transferencias condicionadas, empleo
público, fondos sociales, desarrollo infantil temprano y sistemas de protec-
ción social. Antes de integrarse al Banco Mundial, trabajó en el Consejo para
el Desarrollo de Ultramar, donde dirigió un programa educativo sobre temas
de desarrollo para el personal en el Congreso de Estados Unidos. Ha publi-
cado numerosos libros y artículos en el campo de la evaluación del desarrollo
humano y es profesora adjunta en el Programa de Desarrollo Humano Global
de la Universidad de Georgetown, Washington D.C.
Christel M. J. Vermeersch es economista senior en Práctica Global en

Salud, Nutrición y Población en el Banco Mundial. Se ocupa de temas
xxiv La evaluación de impacto en la práctica

relacionados con el financiamiento del sector salud, el financiamiento
basado en resultados, monitoreo y evaluación, y evaluación de impacto.
Anteriormente se desempeñó en los ámbitos de educación, desarrollo infan-
til temprano y capacidades. Ha sido coautora de estudios de evaluación de
impacto para programas de financiamiento basados en resultados en
Argentina y Ruanda, un seguimiento de largo plazo de un estudio de estimu-
lación de la temprana infancia en Jamaica, así como del manual de evalua-
ción de impacto en salud del Banco Mundial. Antes de sumarse a esta última
institución, fue becaria de investigación posdoctoral en la Universidad de
Oxford. Posee un doctorado en economía de la Universidad de Harvard.
Acerca de los autores xxv

ABREVIATURAS
3IE Iniciativa Internacional para la Evaluación de Impacto

ATE Efecto promedio del tratamiento
BID Banco Interamericano de Desarrollo
CITI Iniciativa de capacitación institucional colaborativa
DD Diferencias en diferencias
DIME Evaluación de impacto para el desarrollo (Banco Mundial)
DRD Diseño de regresión discontinua
EMARF Específico, medible, atribuible, realista y focalizado
EMD Efecto mínimo detectable
HISP Programa de Subsidios de Seguros de Salud
ID Número de identificación
IDU Instituto para el Desarrollo de Ultramar
IHSN International Household Survey Network
ITT Intención de tratar
IV Variables instrumentales
J-P AL Abdul Latif Jameel Poverty Action Lab
JRI Junta de revisión institucional
LATE Efecto promedio local del tratamiento
NIH National Institutes of Health (Estados Unidos)
OMS Organización Mundial de la Salud
ONG Organización no gubernamental
OSF Open Science Framework
RCT Ensayo controlado aleatorio
xxvii
RIDIE Registry for International Development Impact Evaluations
SIEF Fondo Estratégico de Evaluación de Impacto (Banco Mundial)
SUTVA Supuesto de estabilidad del valor de la unidad de tratamiento
TOT Tratamiento en los tratados
USAID Agencia de Estados Unidos para el Desarrollo Internacional
xxviii La evaluación de impacto en la práctica

Primera parte
INTRODUCCIÓN A
LA EVALUACIÓN DE
IMPACTO
La primera parte de este libro presenta una visión general de la evaluación de

impacto. En el capítulo 1 se analiza por qué la evaluación de impacto es importante
y cómo se inscribe en el contexto de una formulación ética de las políticas basada
en evidencia. Se compara la evaluación de impacto con el monitoreo, se describen
las características que definen la evaluación de impacto y se abordan enfoques
complementarios, entre ellos el análisis de costo-beneficio y de costo-efectividad.
Asimismo, aquí se introduce un elemento clave del libro, a saber: cómo los recur-
sos disponibles de un programa, los criterios de elegibilidad para seleccionar a los
beneficiarios y los plazos para la implementación contribuyen a definir las opciones
en la selección de los métodos de evaluación de impacto. Por último, se detallan
diferentes modalidades de evaluación de impacto, como la evaluación prospectiva
y retrospectiva y las pruebas de eficacia frente a las pruebas de efectividad, y se
concluye con un debate sobre cuándo utilizar las evaluaciones de impacto.
El capítulo 2 versa sobre cómo formular preguntas e hipótesis de evaluación
que son útiles para las políticas. Estas preguntas e hipótesis forman la base
de la evaluación porque definen su foco. También se expone el concepto fun-
damental de una teoría del cambio y los usos correspondientes de las cadenas
de resultados y de los indicadores de desempeño. Este capítulo presenta la
primera introducción al estudio de casos ficcionales, el Programa de Subsidios
de Seguros de Salud (HISP, por sus siglas en inglés, Health Insurance Subsidy
Program) utilizado a lo largo del libro y en el material de apoyo que se halla en
el sitio web de evaluación de impacto en la práctica (http://www.worldbank.org
/ieinpractice).
CAPÍTULO 1
¿Por qué evaluar?
La formulación de políticas basada en evidencia
Los programas y políticas de desarrollo suelen estar diseñados para cambiar

resultados, como aumentar los ingresos, mejorar el aprendizaje o reducir las
enfermedades. Saber si estos cambios se logran o no es una pregunta crucial
para las políticas públicas, aunque a menudo no suele abordarse. Es más Concepto clave
habitual que los administradores de los programas y los responsables de las Las evaluaciones son
políticas se centren en medir e informar sobre los insumos y los productos valoraciones
inmediatos de un programa (cuánto dinero se gasta, cuántos libros de texto periódicas y objetivas
de un proyecto,
se distribuyen, cuántas personas participan en un programa de empleo) en
programa o política
lugar de evaluar si los programas han logrado sus objetivos de mejorar los planificada, en curso o
resultados. terminada. Las
Las evaluaciones de impacto forman parte de una agenda mas amplia de evaluaciones se
formulación de políticas públicas basadas en evidencia. Esta tendencia mun- utilizan para responder
a preguntas
dial creciente se caracteriza por un cambio de enfoque, ya que en lugar de
específicas, a menudo
centrarse en los insumos lo hace en los productos y resultados, y está recon- relacionadas con el
figurando las políticas públicas. Centrarse en los resultados no solo sirve diseño, la implementa-
para definir y hacer un seguimiento de los objetivos nacionales e internacio- ción y/o los resultados.
nales, sino que –además– los administradores de programas utilizan y nece-
sitan cada vez más los resultados para mejorar la rendición de cuentas,
definir las asignaciones presupuestarias y orientar el diseño del programa y
las decisiones de políticas.
3
El monitoreo y la evaluación son fundamentales en la formulación de
políticas basadas en evidencia. Ofrecen un conjunto central de instru-
mentos que las partes interesadas pueden utilizar para verificar y mejorar
la calidad, eficiencia y efectividad de las políticas y de los programas en
diferentes etapas de implementación o, en otras palabras, para centrarse
en los resultados. A nivel de la gestión del programa, es necesario saber
cuáles son las opciones de diseño costo-efectivas, o demostrar ante los
responsables de la toma de decisiones que los programas están logrando
sus resultados previstos con el fin de obtener asignaciones presupuesta-
rias para continuarlos o ampliarlos. A nivel nacional, los ministerios
compiten unos con otros para obtener financiamiento del ministerio de
Finanzas. Y, por último, los gobiernos deben rendir cuentas ante los ciu-
dadanos para informales del resultado de los programas públicos. La evi-
dencia puede constituir una base sólida para la transparencia y la rendición
de cuentas.
La evidencia robusta generada por las evaluaciones de impacto está sir-
viendo cada vez más como fundamento para una mayor rendición de cuen-
tas, innovación y aprendizaje. En un contexto en que los responsables de las
políticas y la sociedad civil exigen resultados y la rendición de cuentas de los
programas públicos, la evaluación de impacto puede proporcionar eviden-
cia robusta y creíble sobre el desempeño y ante todo sobre si un programa
concreto ha alcanzado o está alcanzando sus resultados deseados. Las eva-
luaciones de impacto también son cada vez más utilizadas para probar inno-
vaciones en el diseño de programas o en la prestación de servicios. A nivel
mundial, estas evaluaciones son fundamentales para construir conocimien-
tos acerca de la efectividad de los programas de desarrollo, iluminando
sobre lo que funciona y no funciona para reducir la pobreza y mejorar el
bienestar.
En pocas palabras, una evaluación de impacto mide los cambios en el
bienestar de los individuos que se pueden atribuir a un proyecto, un pro-
grama o una política específicos. Este enfoque en la atribución es el sello
distintivo de las evaluaciones de impacto. Por lo tanto, el reto fundamental
en una evaluación de esta naturaleza consiste en identificar la relación
causal entre el programa o la política y los resultados de interés.
Las evaluaciones de impacto suelen medir el impacto promedio de un
programa, las modalidades del programa o una innovación en el diseño. Por
ejemplo, ¿el programa de agua y saneamiento aumentó el acceso a agua
potable y mejoró los resultados de salud? ¿Un programa de estudios alterna-
tivo mejoró las puntuaciones de las pruebas de los alumnos? ¿La innovación
de incluir destrezas cognitivas como parte de un programa de formación de
jóvenes ha tenido éxito promoviendo la iniciativa empresarial e incremen-
tando los ingresos? En cada uno de estos casos, la evaluación de impacto
4 La evaluación de impacto en la práctica
proporciona información sobre si el programa provocó los cambios deseados
en los resultados, al compararse con estudios de casos o anécdotas específi-
cas, que solo pueden brindar información parcial y que quizá no sean repre-
sentativos de los impactos generales del programa. En este sentido, las
evaluaciones de impacto bien diseñadas y bien implementadas son capaces
de proporcionar evidencia convincente y exhaustiva que puede ser utilizada
para fundamentar las decisiones de las políticas, influir en la opinión pública
y mejorar el funcionamiento de los programas.
Las evaluaciones de impacto clásicas abordan la efectividad de un pro-
grama en comparación con la ausencia del mismo. El recuadro 1.1 se refiere a
la evaluación de impacto bien conocida del programa de transferencias con-
dicionadas en México, e ilustra cómo la evaluación contribuyó a los debates
de las políticas públicas en relación con la ampliación del programa.1
Recuadro 1.1: Cómo una evaluación exitosa puede promover la

sostenibilidad política de un programa de desarrollo
El programa de transferencias condicio- impacto y la incorporaran en la ampliación

nadas de México del programa al mismo tiempo que este se
En los años noventa, el gobierno de México ponía en marcha de manera progresiva en
lanzó un programa innovador de transferen- las comunidades participantes.
cias condicionadas, llamado inicialmente Las elecciones presidenciales de 2000
Progresa (que luego pasó a llamarse se saldaron con un cambio en el partido
Oportunidades y más tarde Prospera, al gobernante. En 2001 los evaluadores exter-
tiempo que cambiaron unos cuantos elemen- nos de Progresa presentaron su conclusio-
tos del mismo). Sus objetivos consistían en nes al gobierno recién elegido. Los
proporcionar a los hogares pobres un apoyo resultados del programa eran impresionan-
de corto plazo a los ingresos y en incentivar la tes: demostraban que el programa estaba
inversión en el capital humano de los niños, bien focalizado en los pobres y que había
mediante transferencias de efectivo a las generado cambios prometedores en el capi-
madres de hogares pobres con la condición tal humano de los hogares. Schultz (2004)
de que sus hijos asistieran a la escuela y visi- encontró que el programa mejoraba de
taran regularmente un centro de salud. forma significativa la matriculación escolar,
Desde el comienzo, el gobierno consi- en un promedio de 0,7 años adicionales de
deró esencial monitorear y evaluar el pro- escolarización. Gertler (2004) observó que la
grama. Los funcionarios responsables incidencia de las enfermedades de los niños
contrataron a un grupo de investigadores disminuía en un 23%, mientras que el
para que diseñaran una evaluación de número de días perdidos por enfermedad o
Continúa en la página siguiente.
¿Por qué evaluar? 5

Recuadro 1.1: Cómo una evaluación exitosa puede promover la sostenibilidad política de un programa
de desarrollo (continúa)
discapacidad decrecía en un 19% entre los media-superior y mejoró los programas de
adultos. Entre los resultados nutricionales, salud para los adolescentes. Al mismo
Behrman y Hoddinott (2001) hallaron que el tiempo, los resultados fueron utilizados para
programa reducía la probabilidad de retraso modificar otros programas de ayuda social,
en el crecimiento en alrededor de 1 centí- como el subsidio de la tortilla, muy generoso
metro al año en los niños durante la edad pero no tan bien focalizado, cuya escala se
crítica de 12-36 meses. redujo.
Estos resultados de la evaluación fueron La exitosa evaluación de Progresa tam-
el punto de partida de un diálogo sobre las bién contribuyó a la rápida adopción de sis-
políticas basadas en evidencia y contribuye- temas de transferencias condicionadas en
ron a la decisión del nuevo gobierno de seguir todo el mundo, y a la adopción en México de
con el programa. El gobierno amplió su una legislación que establece la evaluación
alcance e introdujo las becas en la enseñanza de todos los proyectos sociales.
Fuentes: Behrman y Hoddinott (2001); Fiszbein y Schady (2009); Gertler (2004); Levy y Rodríguez (2005); Schultz
(2004); Skoufias y McClafferty (2001).
El recuadro 1.2 ilustra cómo la evaluación de impacto influyó en la polí-

tica educativa de Mozambique, al demostrar que el preescolar comunitario
puede ser una fórmula asequible y efectiva de abordar la educación tem-
prana y promover la matriculación de los niños en la escuela primaria a la
edad adecuada.
Además de abordar la pregunta básica de si un programa es efectivo
o no, las evaluaciones de impacto también se pueden utilizar para pro-
bar explícitamente modalidades de programas alternativos o innovacio-
nes de diseño. A medida que los responsables de las políticas se centran
cada vez más en entender mejor cómo perfeccionar la implementación
y obtener más a cambio del dinero, los enfoques que prueban alternati-
vas de diseño están ganando terreno rápidamente. Por ejemplo, una
evaluación puede comparar el desempeño de un programa de forma-
ción con el de una campaña promocional para ver cuál es más efectivo
para aumentar la alfabetización financiera. Una evaluación de impacto
puede probar cuál es el enfoque de la combinación de nutrición y de
estimulación del niño que tiene el mayor impacto en su desarrollo. O la
evaluación puede probar una innovación de diseño para mejorar el
diseño de un programa existente, como utilizar mensajes de texto para
mejorar el cumplimiento cuando se trata de tomar la medicación
prescrita.

Recuadro 1.2: El impacto de las políticas de un modelo preescolar
innovador
Desarrollo preescolar y de la primera La evaluación llegó a la conclusión de que

infancia en Mozambique los niños que asistían a preescolar tenían un
Si bien el preescolar se reconoce como una 24% más de probabilidades de matricularse en
buena inversión y un enfoque efectivo para la escuela primaria que los niños del grupo de
preparar a los niños para la escuela y las eta- comparación, y un 10% más de probabilidades
pas posteriores de la vida, los países en desa- de comenzar a la edad adecuada. En la escuela
rrollo se han enfrentado a la pregunta de cómo primaria, los niños que habían asistido a prees-
introducir un modelo de preescolar escalable y colar dedicaron casi un 50% más de tiempo a
costo-efectivo. En Mozambique solo alrede- las tareas escolares y a otras actividades relacio-
dor del 4% de los niños asiste a preescolar. Al nadas con la escuela que los que no habían asis-
llegar a la escuela primaria, algunos niños de tido. La evaluación también mostraba aumentos
comunidades rurales muestran señales de positivos en la preparación para la escuela; los
retrasos en el desarrollo y a menudo no están niños que habían cursado preescolar obtenían
preparados para las demandas de la escuela mejores resultados en las pruebas cognitivas y
primaria. Además, a pesar de que en la socioemocionales, y alcanzaban un buen desa-
escuela primaria hay una tasa de matriculación rrollo motor versus el grupo de comparación.
de casi el 95%, a una tercera parte de los Otros miembros del hogar también se
niños no se los inscribe a la edad adecuada. beneficiaron de la matriculación de los niños en
En 2006 Save the Children lanzó un pro- preescolar al disponer de más tiempo para
grama piloto de preescolar comunitario en dedicar a actividades productivas. Cuando en
zonas rurales de Mozambique con la inten- un hogar había un niño que concurría a prees-
ción de mejorar el desarrollo cognitivo, colar, los hermanos mayores tenían un 6% más
social, emocional y físico de los niños. En lo de probabilidades de asistir a la escuela y los
que se considera la primera evaluación alea- cuidadores tenían un 26% más de probabilida-
torizada de un programa preescolar en África des de haber trabajado en los últimos 30 días.
rural, en 2008 un equipo de investigación Esta evaluación demostró que incluso en
llevó a cabo una evaluación de impacto del un entorno de bajos ingresos, el preescolar
programa. Sobre la base de los resultados puede ser una manera efectiva de promover
positivos de la evaluación, el gobierno de el desarrollo cognitivo, preparar a los niños
Mozambique adoptó el modelo preescolar para la escuela primaria y aumentar la proba-
comunitario de Save the Children y decidió bilidad de que comiencen la escuela prima-
ampliarlo a 600 comunidades. ria a la edad adecuada.
Fuente: Martínez, Nadeau y Pereira (2012).
¿Qué es la evaluación de impacto?
La evaluación de impacto es uno de los numerosos métodos que existen

para apoyar las políticas públicas basadas en evidencia, incluidos el monito-
reo y otros tipos de evaluación.
El monitoreo es un proceso continuo mediante el cual se lleva a cabo un
seguimiento de lo que ocurre con un programa y se utilizan los datos recopi-
lados para fundamentar la implementación de los programas y la adminis-
tración y las decisiones diarias. A partir sobre todo de datos administrativos,
el monitoreo realiza un seguimiento de los desembolsos financieros y del
desempeño del programa en relación con los resultados esperados, y analiza
las tendencias a lo largo del tiempo.2 El monitoreo es necesario en todos los
programas y constituye una fuente crítica de información sobre el desem-
peño de los mismos, lo cual abarca también la implementación y los costos.
Normalmente, el monitoreo se aplica a los insumos, actividades y productos,
aunque ocasionalmente también puede abarcar los resultados, como, por
ejemplo, el progreso alcanzado en los objetivos de desarrollo nacional.
Las evaluaciones son valoraciones periódicas y objetivas de un proyecto,
programa o política planificado, en curso o terminado. Se utilizan para res-
ponder a preguntas específicas relacionadas con el diseño, la implementa-
ción y los resultados. En contraste con el monitoreo, que es permanente, las
evaluaciones se llevan a cabo en momentos concretos en el tiempo y a
menudo requieren una perspectiva externa de los técnicos expertos. Su
diseño, método y costo varían considerablemente en función del tipo de pre-
gunta que la evaluación intente responder. En términos generales, las eva-
luaciones pueden abordar tres tipos de preguntas (Imas y Rist, 2009):3
• Preguntas descriptivas, que apuntan a lo que está ocurriendo. Se centran

en los procesos, las condiciones, las relaciones organizacionales y las opi-
niones de las partes interesadas.
• Preguntas normativas, que comparan lo que ocurre con lo que debería
ocurrir. Evalúan las actividades e investigan si los objetivos se cumplen o
no. Estas preguntas pueden aplicarse a los insumos, las actividades y los
productos.
• Preguntas de causa y efecto, que se centran en la atribución. Investigan
qué diferencia produce la intervención en los resultados.
Hay numerosos tipos de evaluación y de métodos de evaluación, basados en
datos cuantitativos y cualitativos. Los datos cualitativos no se expresan en
números sino más bien mediante un lenguaje o, a veces, imágenes. Los datos
cuantitativos son mediciones numéricas y habitualmente se asocian con
escalas o métricas. Tanto los unos como los otros se pueden utilizar para
responder al tipo de preguntas planteado más arriba. En la práctica, nume-
rosas evaluaciones trabajan con ambos tipos de datos. Hay múltiples fuen-
tes de datos que se pueden emplear en las evaluaciones, tanto datos
primarios recopilados para el objetivo de la evaluación como los datos
secundarios disponibles (véase el capítulo 16 sobre las fuentes de datos).
Este libro se centra en las evaluaciones de impacto que se sirven de datos
cuantitativos pero subrayan el valor del monitoreo, de los métodos de eva-
luación complementarios y del uso tanto de datos cuantitativos como
cualitativos.
Las evaluaciones de impacto constituyen un tipo particular de evaluación
que pretende responder a una pregunta específica de causa y efecto: ¿Cuál
es el impacto (o efecto causal) de un programa en un resultado de interés?
Esta pregunta básica incorpora una dimensión causal importante. Se centra
únicamente en el impacto, es decir, en los cambios directamente atribuibles a
un programa, una modalidad de programa o una innovación de diseño.
La pregunta básica de la evaluación –¿cuál es el impacto o efecto causal Concepto clave
de un programa en un resultado de interés?– se puede aplicar en numerosos Las evaluaciones de
contextos. Por ejemplo, ¿cuál es el efecto causal de las becas en la asistencia impacto pretenden
escolar y los logros académicos? ¿Cuál es el impacto en el acceso a la aten- responder un tipo
particular de pregunta:
ción sanitaria de contratar la atención primaria con proveedores privados?
¿Cuál es el impacto
Si los suelos de tierra son reemplazados por suelos de cemento, ¿cuál será el (o efecto causal) de un
impacto en la salud de los niños? ¿La mejora de los caminos aumenta el programa en un
acceso a los mercados laborales e incrementa el ingreso de los hogares y, en resultado de interés?
caso afirmativo, en qué medida? ¿Influye el tamaño de la clase en los logros
de los alumnos y, en caso afirmativo, en qué medida? Como muestran estos
ejemplos, la pregunta de la evaluación básica se puede ampliar para analizar
el impacto de una modalidad de programa o innovación de diseño, no solo de
un programa.
El sello distintivo de las evaluaciones de impacto es centrarse en la cau-
salidad y la atribución. Todos los métodos de evaluación de impacto plan-
tean alguna forma de pregunta de causa y efecto. El enfoque para abordar la
causalidad determina las metodologías que se pueden utilizar. Para estimar
el efecto causal o el impacto de un programa en los resultados, cualquier
método de evaluación de impacto elegido debe estimar el llamado contra- Concepto clave
factual, es decir: cuál habría sido el resultado de los participantes del pro- La elección de un
grama si no hubieran participado en el mismo. En la práctica, la evaluación método de evaluación
de impacto depende
de impacto requiere que el equipo de evaluación encuentre un grupo de
de las características
comparación para estimar qué les habría ocurrido a los participantes del operativas del
programa sin el programa, y luego efectuar comparaciones con el grupo de programa que se
tratamiento que ha sido objeto del programa. En la segunda parte de este evalúa, sobre todo de
libro se describen los principales métodos que se pueden aplicar para sus recursos
encontrar grupos de comparación adecuados. disponibles, sus
criterios de elegibili-
Uno de los principales mensajes de este libro es que la elección de un dad para seleccionar a
método de evaluación de impacto depende de las características operativas los beneficiarios y los
del programa que se evalúa. Cuando las reglas de operación del programa son plazos para la
equitativas y transparentes y contemplan la rendición de cuentas, siempre implementación del
se podrá encontrar un buen diseño de evaluación de impacto, ya sea que programa.

la evaluación de impacto se planifique al comienzo, o durante el proceso de
diseño o de implementación de un programa. El contar con reglas de opera-
ción claras y bien definidas para un programa no solo tiene un valor intrínseco
en las políticas públicas y en una gestión solvente de los programas: también
es esencial para construir buenos grupos de comparación, lo cual constituye
la base de las evaluaciones de impacto rigurosas. Concretamente, la elección
de un método de evaluación de impacto está determinada por las característi-
cas operativas del programa, en particular sus recursos disponibles, los crite-
rios de elegibilidad para seleccionar a los beneficiarios y los plazos para la
implementación del programa. Como se verá en las partes 2 y 3 de este libro,
se pueden formular tres preguntas acerca del contexto operativo de un deter-
minado programa: ¿El programa tiene recursos para servir a todos los benefi-
ciarios elegibles? ¿El programa está focalizado o es universal? ¿El programa se
ofrecerá a todos los beneficiarios de una sola vez o de manera secuencial? La
respuesta a estas tres preguntas determinará cuál de los métodos presentados
en la parte 2 –asignación aleatoria, variables instrumentales, regresión dis-
continua, diferencias en diferencias o pareamiento– es el más adecuado para
un determinado contexto operativo.
Evaluación de impacto prospectiva versus

evaluación retrospectiva
Las evaluaciones de impacto se pueden dividir en dos categorías: prospecti-

vas y retrospectivas. Las evaluaciones prospectivas se desarrollan simultá-
neamente con el diseño del programa y se incorporan en la implementación
del mismo. Los datos de línea de base se recopilan antes de implementar el
programa, tanto en el grupo que recibe la intervención (denominado grupo
de tratamiento) como en el grupo utilizado como comparación y que no es
objeto de la intervención (denominado grupo de comparación). Las evalua-
ciones retrospectivas evalúan el impacto del programa después de que se lo
haya implementado, y los grupos de tratamiento y de comparación se gene-
ran ex post.
Las evaluaciones de impacto prospectivas tienen más probabilidades de
producir resultados solventes y creíbles, por tres motivos. En primer lugar,
se pueden recopilar datos de línea de base para establecer las medidas de los
resultados de interés antes de que el programa haya comenzado. Estos datos
son importantes para medir los resultados antes de la intervención. Los
datos de línea de base en los grupos de tratamiento y comparación se deben
analizar para asegurar que los grupos sean similares. Las líneas de base tam-
bién se pueden utilizar para evaluar la efectividad de la focalización, es
decir, si un programa llega o no a sus beneficiarios previstos.
0
En segundo lugar, definir la medida de éxito del programa en la etapa de
planificación del mismo centra tanto el programa como la evaluación en los
resultados previstos. Como se verá, las evaluaciones de impacto se basan en
la teoría del cambio de un programa o una cadena de resultados. El diseño
de una evaluación de este tipo contribuye a clarificar los objetivos del pro-
grama, sobre todo porque requiere establecer medidas bien definidas de su
éxito. Los responsables de las políticas deberían definir objetivos claros para
el programa y formular preguntas claras que la evaluación debe contestar,
para garantizar que los resultados sean relevantes para las políticas. En rea-
lidad, el pleno apoyo de los responsables de las políticas es un requisito
necesario para el éxito de una evaluación; no se deberían emprender evalua-
ciones de impacto a menos que los responsables de las políticas estén con-
vencidos de la legitimidad de las mismas y de su valor para fundamentar
decisiones clave de las políticas públicas.
En tercer lugar, y lo que es aún más importante, en una evaluación pros-
pectiva los grupos de tratamiento y comparación se definen antes de imple-
mentar la intervención que será evaluada. Como se explicará con mayor
detalle en los próximos capítulos, existen muchas otras opciones para llevar
a cabo evaluaciones válidas cuando las evaluaciones se planifican desde el
comienzo, antes de que la implementación tenga lugar. En las partes 2 y 3 se
argumenta que casi siempre es posible encontrar una estimación válida del
contrafactual para cualquier programa cuyas reglas de asignación sean cla-
ras y transparentes, siempre que la evaluación se diseñe de manera prospec-
tiva. En resumen, las evaluaciones prospectivas son las que tienen más
probabilidades de generar contrafactuales válidos. En la etapa de diseño, se
pueden contemplar maneras alternativas de estimar un contrafactual válido.
Concepto clave
El diseño de la evaluación de impacto también se puede alinear plenamente
Las evaluaciones
con las reglas operativas del programa, así como con el despliegue o el pro-
prospectivas se
ceso de expansión de este último. diseñan y elaboran
Por el contrario, en las evaluaciones retrospectivas, el equipo que lleva a antes de implementar
cabo la evaluación a menudo tiene información tan limitada que resulta difí- un programa.
cil analizar si el programa fue implementado con éxito y si sus participantes
realmente se beneficiaron de él. Numerosos programas no recopilan datos
de línea de base a menos que se haya incorporado la evaluación desde el
principio, y una vez que el programa está funcionando ya es demasiado
tarde para hacerlo.
Las evaluaciones retrospectivas que utilizan los datos existentes son
necesarias para evaluar los programas creados en el pasado. En estas situa-
ciones, las opciones para obtener una estimación válida del contrafactual
son mucho más limitadas. La evaluación depende de reglas claras de opera-
ción del programa en lo que respecta a la asignación de beneficios. También
depende de la disponibilidad de datos con suficiente cobertura sobre los
grupos de tratamiento y comparación, tanto antes como después de la
implementación del programa. El resultado es que la viabilidad de una eva-
luación retrospectiva depende del contexto y nunca está garantizada.
Incluso cuando son viables, las evaluaciones retrospectivas a menudo utili-
zan métodos cuasi experimentales y dependen de supuestos más fuertes y,
por ende, pueden producir evidencia más discutible.4
Estudios de eficacia y estudios de efectividad
La función principal de la evaluación de impacto consiste en producir evi-

dencia sobre el desempeño de un programa a fin de que sea utilizada por los
funcionarios públicos, los administradores del programa, la sociedad civil y
otros actores relevantes. Los resultados de las evaluaciones de impacto son
particularmente útiles cuando las conclusiones se pueden aplicar a una
población de interés más amplia. La cuestión de la generalización es clave
para los responsables de las políticas, puesto que determina si los resultados
identificados en la evaluación pueden replicarse en grupos ajenos a los que
han sido estudiados en la evaluación si aumenta la escala del programa.
En los primeros tiempos de las evaluaciones de impacto de los programas
de desarrollo, una gran parte de la evidencia se basaba en estudios de efica-
cia, es decir, pruebas llevadas a cabo en un entorno específico en condicio-
nes rigurosamente controladas para asegurar la consistencia entre el diseño
de la evaluación y la implementación del programa. Dado que los estudios
de eficacia suelen realizarse como experiencias piloto con una amplia parti-
cipación técnica de los investigadores mientras el programa se está imple-
mentando, puede que sus resultados, a menudo de pequeña escala, no
ofrezcan necesariamente mucha información acerca del impacto de un pro-
yecto similar implementado a mayor escala en circunstancias normales. Los
estudios de eficacia analizan la prueba de concepto, a menudo para sondear
la viabilidad de un nuevo programa o una teoría específica del cambio. Si el
programa no genera impactos anticipados bajo estas condiciones cuidado-
samente manejadas, es poco probable que funcione si se despliega en cir-
cunstancias normales. Por ejemplo, una intervención piloto que introduce
nuevos protocolos de tratamiento médico puede funcionar en un hospital
con excelentes administradores y equipo médico, pero puede que la misma
intervención no funcione en un hospital promedio con administradores
menos esmerados y limitaciones de personal. Además, los cálculos de costo-
beneficio variarán, dado que los pequeños estudios de eficacia quizá no cap-
turen los costos fijos ni las economías de escala. Como consecuencia, si bien
la evidencia de los estudios de eficacia puede ser útil para probar un enfoque
innovador, los resultados a menudo tienen una capacidad de generalización
2
limitada y no siempre representan adecuadamente entornos más generales, Concepto clave
que suelen ser la principal preocupación de los responsables de las Los estudios de
políticas. eficacia evalúan si un
Al contrario, los estudios de efectividad proporcionan evidencia a partir programa puede
funcionar en
de las intervenciones que tienen lugar en circunstancias normales, utili- condiciones ideales,
zando vías de implementación regulares y con el objeto de producir conclu- mientras que los
siones que se pueden generalizar para una población grande. Cuando las estudios de efectividad
evaluaciones de efectividad están adecuadamente diseñadas e implementa- evalúan si un
das, los resultados pueden ser generalizables para beneficiarios previstos programa realmente
funciona en
fuera de la muestra de la evaluación, siempre y cuando la ampliación utilice
condiciones normales.
las mismas estructuras de implementación y llegue a poblaciones similares
a la de la muestra de la evaluación. Esta validez externa tiene una importan-
cia crítica para los responsables de las políticas porque les permite utilizar
los resultados de la evaluación para fundamentar decisiones que afectan a
todo el programa y que se aplican a los beneficiarios previstos más allá de la
muestra de la evaluación (véase el recuadro 1.3).
Recuadro 1.3: Pruebas de la capacidad generalizable de los

resultados
Una evaluación multisitio del enfoque de haber arrojado resultados impresionantes en

“graduación” para aliviar la extrema Bangladesh. Puesto en marcha por el
pobreza Bangladesh Rural Advancement Committee
Al evaluar un programa en múltiples contex- (BRAC), una gran organización de desarrollo
tos, los investigadores pueden analizar si los global, el modelo se proponía ayudar a los
resultados de una evaluación de impacto se muy pobres a “graduarse” de la extrema
pueden generalizar. Estas denominadas eva- pobreza mediante transferencias de efectivo,
luaciones multisitio contribuyen al creciente activos productivos y formación intensiva.
corpus de evidencia sobre qué funciona y Banerjee y sus colegas pretendían anali-
qué no lo hace en el desarrollo, y pueden zar si el enfoque de graduación podía funcio-
proporcionar perspectivas clave a los respon- nar en diferentes países a través de seis
sables de las políticas en diferentes países. evaluaciones de impacto aleatorias simultá-
Por ejemplo, en 2007 Banerjee et al. ini- neas en Etiopía, Ghana, Honduras, India,
ciaron una evaluación multisitio del enfoque Pakistán y Perú. En cada país, los investiga-
de “graduación” para aliviar la extrema dores trabajaron con organizaciones no
pobreza. El modelo había sido objeto de gran gubernamentales (ONG) locales para imple-
atención en todo el mundo después de mentar un programa de graduación similar.

Recuadro 1.3: Pruebas de la capacidad generalizable de los resultados (continúa)
Si bien el programa se modificó para ade- valor de los activos, inclusión financiera, tiempo
cuarse a los diferentes contextos en cada dedicado a trabajar, ingresos y rentas, salud
país, los principios clave seguían siendo los mental y participación política. La magnitud de
mismos. El programa se centró en los hoga- los impactos variaba según los países, y hubo
res más pobres en pueblos de las regiones impactos considerables en el valor de los acti-
más pobres de cada país. Durante 24 meses, vos en todos los países excepto uno. No se
los hogares beneficiarios recibieron activos registraron impactos estadísticamente signifi-
productivos, formación y apoyo, coaching en cativos en el índice de salud física.
habilidades para la vida, dinero, información Los resultados también variaban de un
sanitaria y ayuda en la inclusión financiera. La país a otro. Las mejoras en el consumo per
evaluación de impacto medía la efectividad cápita no fueron significativas en Honduras ni
de proporcionar este paquete de beneficios. en Perú, y la mejora en el valor de los activos
El estudio evaluó los impactos del programa no lo fue en Honduras. Sin embargo, en térmi-
en 10 conjuntos de resultados. Un año des- nos agregados, la evaluación apuntaba hacia
pués de que el programa terminara en los seis la promesa de este tipo de intervención multi-
países, se produjeron mejoras considerables facética para mejorar las vidas de las familias
en ocho de los 10 conjuntos de resultados: muy pobres en una gama de entornos.
consumo per cápita, seguridad alimentaria,
Fuentes: Banerjee et al. (2015); BRAC (2013).
Enfoques complementarios
Como se ha señalado, las evaluaciones de impacto responden a preguntas

específicas de causa y efecto. Otros enfoques –entre ellos un estrecho moni-
toreo del programa, y también el uso complementario de otros métodos de
evaluación, como simulaciones ex ante, análisis con métodos mixtos que se
basan en datos cualitativos y cuantitativos, y evaluaciones de procesos– pue-
den servir como valiosos complementos de las evaluaciones de impacto.
Estos otros enfoques tienen numerosas aplicaciones útiles, como estimar el
efecto de las reformas antes de que sean implementadas, contribuir a focali-
zar las preguntas centrales de la evaluación de impacto, realizar seguimien-
tos de la implementación del programa e interpretar los resultados de las
evaluaciones de impacto.
Las evaluaciones de impacto que se realizan en aislamiento con respecto
a otras fuentes de información son vulnerables en términos tanto de su cali-
dad técnica como de su relevancia para las políticas públicas. Si bien los
resultados de dichas evaluaciones pueden proporcionar evidencia robusta
para saber si ha tenido lugar un efecto, a menudo existen limitaciones para
proporcionar una perspectiva clara de los canales a través de los cuales la
política o programa influyó en los resultados observados. Sin información de
4
las evaluaciones de procesos sobre la naturaleza y el contenido del programa
para contextualizar los resultados de la evaluación, puede que los responsa-
bles de las políticas queden confundidos acerca de por qué se alcanzaron o
no ciertos resultados. Además, sin datos de monitoreo sobre cómo, cuándo y
dónde se está implementando el programa, la evaluación será ciega en cuanto
a si los beneficios llegaron a los beneficiarios previstos y cuándo lo hicieron,
o bien si alcanzaron de forma inintencionada al grupo de comparación.
El monitoreo
El monitoreo de la implementación del programa, las más de las veces

mediante el uso de datos administrativos, es crítico en una evaluación de
impacto. Permite al equipo de evaluación verificar si las actividades se están
realizando según lo planificado, es decir, a qué participantes se les adjudicó
el programa, con qué rapidez se amplió este último, y cómo se están gas-
tando los recursos. Esta información es fundamental para implementar la
evaluación, por ejemplo, para asegurar que los datos de línea de base se
recopilen antes de que se introduzca el programa en la muestra de la evalua-
ción y para verificar la integridad de los grupos de tratamiento y compara-
ción. El monitoreo es esencial para verificar si un beneficiario realmente
participa en el programa y para que no intervengan los no beneficiarios.
Además, los datos administrativos pueden proporcionar información sobre
el costo de implementación del programa, lo cual también es necesario para
los análisis de costo-beneficio y costo-efectividad.
Simulaciones ex ante
Las simulaciones ex ante son evaluaciones que utilizan datos disponibles para
simular los efectos esperados de una reforma de programas o políticas en los
resultados de interés. Pueden ser muy útiles para medir la efectividad espe-
rada relativa de una gama de opciones de diseño de programas alternativos
en los resultados. Se trata de métodos habitualmente usados que dependen
de la disponibilidad de datos de gran alcance y calidad que se pueden utilizar
para aplicar modelos de simulación adecuados a la pregunta en cuestión
(véase el recuadro 1.4). Al contrario de las evaluaciones de impacto, estos
métodos se emplean para simular futuros efectos potenciales, más que para
medir los impactos reales de los programas implementados. Este tipo de
métodos puede ser sumamente útil para establecer referencias para los pro-
bables efectos del programa y para instituir objetivos realistas, así como para
estimar costos, tasas de retorno y otros parámetros económicos. Se suelen
utilizar como la base de los análisis económicos de los proyectos, especial-
mente antes de que se introduzca una reforma o se implemente un proyecto.
Recuadro 1.4: Simulación de posibles efectos del proyecto a
través del modelado estructural
Construcción de un modelo para probar asistencia escolar en los primeros años y, en

diseños alternativos utilizando datos de su lugar, utilizaba el dinero para aumentar los
Progresa en México incentivos en efectivo para los alumnos de
Se puede utilizar un cierto tipo de simulación cursos superiores, los efectos en la escolari-
ex ante (modelado estructural) para estimar zación promedio completada probablemente
los efectos de un programa en una gama de serían mayores.
diseños alternativos. En la evaluación Progresa/ En este caso, las proyecciones se realiza-
Oportunidades/Prospera, que se describe en ron utilizando la encuesta de línea de base de
el recuadro 1.1, los datos recopilados eran lo una evaluación de impacto que ya se había
suficientemente ricos para que los investiga- realizado. Los resultados de las predicciones
dores construyeran un modelo que podía se pudieron probar para ver si arrojaban los
simular los efectos esperados de diseños de mismos impactos que el experimento del pro-
programas alternativos. grama real. Sin embargo, esto no es posible
Todd y Wolpin (2006) utilizaron datos de de hacer normalmente. Este tipo de métodos
línea de base de la evaluación de impacto de simulación suele utilizarse antes de que el
para construir un modelo de las decisiones de programa realmente se implemente con el fin
los padres a propósito de sus hijos, incluida la de analizar los probables efectos de diversos
escolarización. Los autores simularon cómo diseños de programa alternativos. Así, pue-
serían los efectos con distintos diseños de den proporcionar una base para estrechar la
programa, y descubrieron que si el programa gama de opciones a probarse en la práctica.
eliminaba los incentivos en efectivo para la
Fuente: Todd y Wolpin (2006).

Nota: Para otro ejemplo de modelado estructural, véase Bourguignon, Ferreira y Leite (2003).
Los métodos mixtos
Los enfoques de métodos mixtos que combinan datos cuantitativos y cualita-

tivos constituyen un complemento clave en las evaluaciones de impacto que se
basan únicamente en el uso de datos cuantitativos, sobre todo para contribuir
a generar hipótesis y enfocar las preguntas de la investigación antes de recopi-
lar los datos cuantitativos, así como para presentar perspectivas y visiones
novedosas del desempeño de un programa durante y después de su implemen-
tación. Hay numerosos métodos cualitativos, que componen su propio ámbito
de investigación.5 Los métodos que generan datos cualitativos suelen basarse
en enfoques abiertos, que no dependen de las respuestas predeterminadas de
las personas entrevistadas. Los datos se generan a través de una gama de enfo-
ques, incluidos grupos focales, historiales y entrevistas con beneficiarios selec-
cionados y otros informantes clave (Rao y Woolcock, 2003). También pueden
6
incluir una gama de evaluaciones observacionales y etnográficas. A pesar de
que las observaciones, ideas y opiniones recopiladas durante el trabajo cualita-
tivo no suelen ser estadísticamente representativas de los beneficiarios del
programa –y, por lo tanto, no son generalizables– resultan útiles para entender
por qué se han alcanzado o no ciertos resultados (recuadro 1.5).
Las evaluaciones que integran el análisis cuantitativo y cualitativo se carac-
terizan por utilizar métodos mixtos (Bamberger, Rao y Woolcock, 2010). En el
Recuadro 1.5: Un método mixto de evaluación en acción
Combinación de una prueba controlada más largo plazo. Si bien el RCT encontró que
aleatoria con un estudio etnográfico en la intervención no tenía un impacto estadís-
India tico significativo, el estudio cualitativo pro-
Los enfoques de métodos mixtos pueden ser porcionó visiones novedosas de las causas
especialmente útiles cuando evalúan progra- del “fracaso” de la intervención. La investi-
mas con resultados que son difíciles de medir gación cualitativa identificó diversos facto-
en las encuestas cuantitativas. Los progra- res que obstaculizaron la efectividad de la
mas de los ámbitos de democracia y gober- esta última: las variaciones en la calidad de
nanza constituyen ejemplos de este tipo. la facilitación del programa, la falta de apoyo
Así, mientras se diseñaba una estrategia de arriba hacia abajo y las arraigadas estruc-
de evaluación para el programa “Campaña del turas de poder local.
pueblo” que pretendía mejorar la participa- La evidencia cualitativa también descubrió
ción ciudadana en los gobiernos locales, algunos impactos del programa menos tangi-
Ananthpur, Malik y Rao (2014) integraron un bles e inesperados. En los pueblos del trata-
ensayo controlado aleatorio (RCT, por sus miento, el programa mejoró la resolución de
siglas en inglés, Randomized Control Trial) conflictos en la prestación de servicios y
(véase el glosario) con un estudio etnográfico aumentó la participación de las mujeres en
llevado a cabo en un subconjunto del 10% de las actividades de desarrollo de sus comuni-
la muestra de evaluación utilizada para el RCT. dades. Además, los investigadores de campo
Se emplearon métodos de pareamiento para observaron que los gobiernos locales funcio-
asegurar características similares entre pue- naban mejor en los pueblos de tratamiento.
blos de tratamiento y de comparación en la Sin la comprensión matizada del con-
muestra para el estudio cualitativo. Se asignó texto y de la dinámica local que proporciona
un experimentado investigador de campo el componente cualitativo, los investigado-
para que viviera en cada pueblo y estudiara res no habrían podido entender por qué los
los impactos del programa en las estructuras datos cuantitativos no encontraron impac-
sociales y políticas del pueblo. tos. El estudio etnográfico fue capaz de pro-
El estudio etnográfico continuó durante porcionar una evaluación más rica, con
dos años después de que terminó el RCT, lo perspectivas novedosas de los elementos
que permitió observaciones de efectos a útiles para mejorar el programa.
Fuente: Ananthpur, Malik y Rao (2014).

desarrollo de un enfoque de método mixto, Creswell (2014) define tres
aproximaciones básicas:
1. Convergente paralelo. Se recopilan simultáneamente datos cuantitativos
y cualitativos y se utilizan para triangular los hallazgos o para generar los
primeros resultados sobre cómo se está implementando el programa y
cómo lo perciben los beneficiarios.
2. Explicativo secuencial. Los datos cualitativos proporcionan contexto y
explicaciones para los resultados cuantitativos, para explorar casos “atí-
picos” de éxito y fracaso, y para desarrollar explicaciones sistemáticas del
desempeño del programa, como se constató en los resultados cuantitati-
vos. De esta manera, el trabajo cualitativo puede contribuir a determinar
por qué en el análisis cuantitativo se observan ciertos resultados, y se
pueden usar para entrar en la “caja negra” de lo que ocurrió en el pro-
grama (Bamberger, Rao y Woolcock, 2010).
3. Exploratorio secuencial. El equipo de evaluación puede utilizar grupos
focales, listas, entrevistas con informantes clave y otros enfoques cualita-
tivos para desarrollar hipótesis a propósito de cómo y por qué el pro-
grama funcionaría, y para clarificar preguntas acerca de la investigación
que hay que abordar en el trabajo cuantitativo de evaluación de impacto,
lo que incluye las alternativas más relevantes del diseño de programas
que deben ser probadas a través de la evaluación de impacto.
Las evaluaciones de procesos
Las evaluaciones de procesos se centran en cómo se implementa y funciona

un programa, considerando si corresponde a su diseño original, y documen-
tando su desarrollo y funcionamiento. Normalmente, estas evaluaciones
pueden llevarse a cabo con relativa rapidez y a un costo razonable. En los
proyectos piloto y en las etapas iniciales de un programa, pueden ser una
valiosa fuente de información sobre cómo mejorar la implementación del
programa, y se suelen utilizar como primeros pasos para desarrollar un pro-
grama de modo que los ajustes operativos se puedan hacer antes de que se
termine su diseño. Pueden probar si un programa funciona como estaba dise-
ñado y si es consistente con la teoría del cambio del mismo (recuadro 1.6).
Una evaluación de procesos debería incluir los siguientes elementos, que
a menudo se basan en una cadena de resultados o modelo lógico (véase el
capítulo 2), complementados con documentos del programa y entrevistas
con informantes clave y grupos focales beneficiarios:6
• Objetivos del programa y contexto en el que funciona.
• Descripción del proceso utilizado para diseñar e implementar el programa.
8
Recuadro 1.6: Fundamentos para una ampliación a escala
nacional mediante una evaluación de procesos en Tanzania
En el desempeño de un programa hay múlti- ser difíciles de cuantificar, como los cambios
ples facetas. La evidencia de las evaluacio- en las relaciones entre los miembros del
nes de procesos puede complementar los hogar o la dinámica de la comunidad. El obje-
resultados de la evaluación de impacto y pro- tivo de la evaluación del proceso consistía en
porcionar un cuadro más completo de dicho entender cómo funcionaba el programa en la
desempeño. Esto puede ser particularmente práctica y presentar recomendaciones de
importante para que los programas piloto mejoras.
arrojen luz sobre cómo están funcionando las La evaluación de impacto descubrió que
nuevas instituciones y los nuevos procesos. el programa tenía impactos positivos y esta-
En 2010 el gobierno de Tanzania decidió dísticamente significativos en resultados
llevar a cabo en tres distritos un plan piloto clave de educación y salud. Los niños de los
de transferencias condicionadas con base en hogares que participaban tenían un 15%
la comunidad. El programa proporcionaba más de probabilidades de completar la
una transferencia de efectivo a los hogares escuela primaria y un 11% menos de proba-
pobres en función del cumplimiento de cier- bilidades de caer enfermos. Además, los gru-
tos requisitos educativos y sanitarios. Los pos focales con los maestros revelaron que
grupos comunitarios ayudaron a asignar las los alumnos de los grupos de tratamiento
transferencias a los hogares más vulnerables estaban más preparados y más atentos.
de sus comunidades. Para evaluar si este Sin embargo, los grupos focales con
sistema basado en la comunidad funcionaba miembros de la comunidad indicaban que
en el contexto de Tanzania, un equipo de había cierto grado de descontento con el
investigadores del Banco Mundial decidió proceso de selección de los beneficiarios.
integrar una evaluación de procesos en una Los participantes se quejaban de falta de
evaluación de impacto tradicional. transparencia en la selección y de retrasos
Para la evaluación de procesos se utiliza- en los pagos. La evaluación del proceso per-
ron datos cualitativos y cuantitativos. Un año mitió a los administradores del programa
después de implementar la encuesta de abordar estos problemas y mejorar el funcio-
línea de base en distritos piloto, los investi- namiento del programa.
gadores organizaron un ejercicio de tarjetas El trabajo de evaluación fundamentó la
de puntuación en la comunidad para calificar decisión del gobierno de Tanzania de aumen-
aspectos del programa, basándose en gru- tar la escala del programa. Se espera que las
pos focales compuestos por miembros de la transferencias condicionadas con base en
comunidad. Estos grupos también se usaron las comunidades lleguen a casi un millón de
para dar lugar a minuciosas discusiones hogares hacia 2017, teniendo en cuenta las
sobre los impactos del programa que podrían lecciones de esta evaluación exhaustiva.
Fuentes: Berman (2014); Evans et al. (2014).

• Descripción de las operaciones del programa, incluido cualquier cambio
en las mismas.
• Datos básicos sobre las operaciones del programa, incluidos indicadores
financieros y de cobertura.
• Identificación y descripción de eventos que escapan al control del pro-
grama que pueden haber influido en la implementación y los resultados.
• Documentación, como notas de concepto, manuales operativos, actas de
las reuniones, informes y memorandos.
Aplicar una evaluación de impacto a un programa cuyos procesos operati-
vos no han sido validados plantea el doble riesgo de que se malgasten los
recursos de dicha evaluación, cuando en realidad podría bastar con una eva-
luación de proceso más sencilla, o bien el riesgo de que los ajustes necesa-
rios en el diseño del programa se introduzcan una vez que la evaluación de
impacto ya ha comenzado, lo cual cambia el carácter del programa que se
evalúa y la utilidad de la mencionada evaluación.
Análisis de costo-beneficio y costo-efectividad

Conceptos clave Es sumamente importante que la evaluación de impacto pueda complemen-
El análisis de tarse con información sobre el costo del proyecto, del programa o de la polí-
costo-beneficio estima
tica que se evalúa.
los beneficios totales
esperados de un Una vez que están disponibles los resultados de la evaluación de impacto,
programa, comparado estos pueden combinarse con información sobre los costos del programa
con sus costos totales para responder a otras dos preguntas. En primer lugar, en la forma básica de
esperados. una evaluación de impacto, añadir información del costo permitirá llevar a
El análisis de cabo un análisis de costo-beneficio, a partir de lo cual se podrá responder a
costo-efectividad la pregunta: ¿cuáles son los beneficios de un programa con un determinado
compara el costo
costo? El análisis de costo-beneficio estima los beneficios totales esperados
relativo de dos o más
programas o de de un programa, comparado con sus costos totales esperados. Busca cuanti-
alternativas de ficar todos los costos y beneficios de un programa en términos monetarios,
programas para y evalúa si estos últimos superan a los costos.7
alcanzar un resultado En un mundo ideal, el análisis de costo basado en la evidencia de la eva-
común.
luación de impacto existiría no solo para un programa concreto sino tam-
bién para una serie de programas o alternativas de programas, de modo que
los responsables de las políticas pudieran valorar qué programa o alterna-
tiva es más efectivo en función de los costos para lograr un determinado
objetivo. Cuando una evaluación de impacto ensaya alternativas de un pro-
grama, añadir información sobre costos le permite responder a la segunda
pregunta: ¿cómo se comparan diversas alternativas de implementación en
cuanto a su costo-efectividad? Este análisis de costo-efectividad compara el
0
costo relativo de dos o más programas o alternativas de programas para
alcanzar un objetivo común, como la producción agrícola o las puntuacio-
nes de los alumnos en las pruebas.
En un análisis de costo-beneficio o de costo-efectividad, la evaluación de
impacto estima el lado del beneficio o el lado de la efectividad, mientras que
examinar los costos proporciona la información sobre los mismos. Este libro
se centra en la evaluación de impacto y no aborda en detalle cómo recopilar
datos sobre costos o llevar a cabo análisis de costo-beneficio o costo-
efectividad. Sin embargo, es fundamental que la evaluación de impacto se
complemente con información sobre el costo del proyecto, del programa o
de la política que se evalúa. Una vez que se disponga de información sobre el
impacto y el costo de diversos programas, el análisis de costo-efectividad
puede identificar cuáles son las inversiones que arrojan la tasa más alta de
retorno y permiten a los responsables de las políticas tomar decisiones bien
fundamentadas sobre las intervenciones en las que hay que invertir. El
recuadro 1.7 ilustra cómo se pueden utilizar las evaluaciones de impacto
para identificar los programas más efectivos en términos de costo-
efectividad y mejorar la asignación de recursos.
Recuadro 1.7: La evaluación de costo-efectividad
Comparación de evaluaciones de impacto para analizar la costo-efectividad de

programas que influyen en el diferentes tipos de intervenciones educativas.
aprendizaje en las escuelas primarias Los autores compararon varios tipos de
Al evaluar un cierto número de programas con intervenciones en educación, entre ellas el
objetivos similares, es posible comparar la acceso a la educación, los insumos habitua-
costo-efectividad relativa de diferentes enfo- les, las innovaciones pedagógicas, la rendi-
ques para mejorar los resultados, como el ción de cuentas de los maestros y la gestión
aprendizaje en las escuelas primarias. Para basada en la escuela. En particular, investi-
que esto sea posible, los evaluadores deben garon las mejoras en las puntuaciones de las
divulgar no solo los resultados de la evaluación pruebas, en términos de desviaciones
de impacto sino también información detallada estándar, que podían obtenerse por cada
sobre el costo de las intervenciones. En un US$100 invertidos en el programa. Aunque
meta análisis de los resultados de aprendizaje es probable que los costos disminuyeran si
efectuado en países en desarrollo, Kremer, los programas se implementaban a escala,
Brannen y Glennerster (2013) utilizaron infor- para mayor consistencia, los investigadores
mación sobre el costo de 30 evaluaciones de utilizaron los costos tal como se informaba

Recuadro 1.7: La evaluación de costo-efectividad (continúa)
en las evaluaciones. Así, encontraron que Por ejemplo, si bien la creación y formación de
las reformas pedagógicas y las intervencio- comités de escuelas locales en Indonesia no
nes que mejoran la rendición de cuentas y tuvo impactos significativos en las puntuacio-
aumentan los incentivos para los maestros nes de las pruebas, lograr que los comités fue-
tienden a ser las más costo-efectivas. Por ran más representativos a través de las
otro lado, llegaron a la conclusión de que elecciones resultó sumamente costo-efectivo.
proveer más de los mismos insumos sin Como ilustra su estudio, comparar las
cambiar la pedagogía o la rendición de cuen- evaluaciones de intervenciones que tienen
tas tenía impactos limitados en las puntua- objetivos similares puede arrojar luz sobre
ciones de las pruebas. Por ejemplo, un la efectividad de diferentes intervenciones
programa aplicado en Kenia que incrementó en diferentes contextos. Sin embargo, los
el número de maestros en las escuelas no investigadores deben reconocer que los con-
tuvo impactos significativos en las puntua- textos varían de forma considerable según
ciones de las pruebas de los alumnos. los programas y escenarios. También sigue
Los programas que empoderaban a las siendo relativamente raro contar con abun-
comunidades locales a través de intervencio- dancia de datos de distintos programas en
nes de gestión basadas en la escuela parecían términos de mediciones, evaluaciones de
ser los más exitosos y costo-efectivos, sobre impacto e información del costo de resulta-
todo cuando estas reformas se formalizaron. dos comparables.
Fuente: Kremer, Brannen y Glennerster (2013).
Consideraciones éticas con respecto a la

evaluación de impacto
Cuando se toma la decisión de diseñar una evaluación de impacto, se deben

considerar algunos asuntos éticos. Se han formulado preguntas a propósito
de si la evaluación de impacto es ética en sí misma y por sí sola. Un punto de
partida de este debate consiste en considerar la ética de invertir recursos
públicos en programas cuya efectividad se desconoce. En este contexto, la
falta de evaluación puede en sí misma ser no ética. La información sobre la
efectividad del programa que generan las evaluaciones de impacto puede
conducir a una inversión más efectiva y ética de los recursos públicos.
Otras consideraciones éticas tienen que ver con las reglas utilizadas para
asignar los beneficios del programa, con los métodos con los que se estudia
a los seres humanos y con la transparencia en la documentación de los pla-
nes de investigación, datos y resultados. Estos temas se abordarán en detalle
en el capítulo 13.
El principio ético más básico en una evaluación es que la prestación de
intervenciones con beneficios conocidos no debería negarse o retrasarse
2
únicamente en función de los objetivos de la evaluación. En este libro se
sostiene que las evaluaciones no deberían dictar cómo se asignan los benefi-
cios, sino más bien que deberían ajustarse a reglas de asignación del pro-
grama que sean equitativas y transparentes. En este contexto, cualquier
preocupación ética a propósito de las reglas de asignación del programa no
nace de la evaluación de impacto en sí misma sino directamente de las reglas
de operación del programa. Planificar las evaluaciones puede ser útil para
dilucidar las reglas de operación del programa, y contribuir a estudiar si son
equitativas y transparentes, sobre la base de criterios claros de elegibilidad.
La asignación aleatoria de los beneficios del programa a menudo suscita
inquietudes éticas a propósito de la negación de dichos beneficios a destina-
tarios elegibles. Sin embargo, la mayoría de los programas funciona en con-
textos operativos con recursos financieros y administrativos limitados, lo
cual impide llegar a todos los beneficiarios elegibles de una sola vez. Desde
una perspectiva ética, todos los sujetos que son igualmente elegibles para
participar en cualquier tipo de programa social deberían tener la misma
oportunidad de ser destinatarios del programa. La asignación aleatoria
cumple este requisito ético. En situaciones en las cuales un programa se
aplicará en fases a lo largo del tiempo, la implementación se puede basar en
seleccionar aleatoriamente el orden en que los beneficiarios, todos igual-
mente meritorios, serán receptores del programa. En estos casos, los desti-
natarios que ingresen más tarde en el programa pueden conformar el grupo
de comparación para los primeros beneficiarios, generando un sólido diseño
de evaluación, así como un método transparente e imparcial para asignar los
escasos recursos.
La ética de la evaluación de impacto excede a la ética de las reglas de
asignación del programa. También incluye la ética de la investigación en
seres humanos, así como la ética de llevar a cabo investigaciones transpa-
rentes, objetivas y reproducibles, como se analiza en el capítulo 13.
En numerosos países e instituciones internacionales, se han creado jun-
tas de revisión institucional o comités éticos para regular las investigaciones
que involucran a seres humanos. Estos organismos se encargan de asesorar,
aprobar y monitorear los estudios de investigación, con los objetivos funda-
mentales de proteger los derechos y promover el bienestar de todos los
sujetos. Aunque las evaluaciones de impacto son eminentemente empresas
operativas, también constituyen estudios de investigación y, como tales,
deberían adherir a las directrices de investigación para seres humanos.
Conseguir que una evaluación de impacto sea objetiva, transparente y
reproducible es un componente ético igualmente importante de la investi-
gación. Para que la investigación sea transparente, los planes de evaluación
de impacto pueden incluirse en un plan de análisis previo y ser sometidos a
un registro de estudios. Una vez que la investigación se lleve a cabo, los datos
y códigos utilizados en el análisis pueden hacerse públicamente disponibles
de modo que otras personas puedan replicar el trabajo, a la vez que se pro-
tege el anonimato.
La evaluación de impacto en las decisiones de

políticas
Las evaluaciones de impacto son necesarias para informar a los responsables

de las políticas en relación con una gama de decisiones, que abarcan desde
los recortes de programas ineficientes hasta el aumento de escala de inter-
venciones que funcionan, o ajustar los beneficios del programa y seleccionar
entre diversas alternativas de programas. Dichas evaluaciones son más efec-
tivas cuando se aplican de manera selectiva para responder a preguntas clave
de políticas, y se suelen aplicar a programas piloto innovadores que están
probando un enfoque desconocido pero prometedor. La evaluación de las
transferencias condicionadas en México, que se describe en el recuadro 1.1,
se volvió influyente no solo debido a la naturaleza innovadora del programa
sino también porque la evaluación misma proporcionó evidencia creíble y
sólida que no podía ignorarse en las posteriores decisiones de las políticas.
La adopción y ampliación del programa tanto a nivel nacional como interna-
cional tuvieron una fuerte influencia de los resultados de la evaluación.
Las evaluaciones de impacto se pueden utilizar para explorar diferentes
tipos de preguntas relacionadas con las políticas. La forma básica de evalua-
ción de impacto probará la efectividad de un determinado programa. En
otras palabras, responderá a la pregunta: ¿son un determinado programa o
una determinada intervención efectivos en comparación con la ausencia del
programa? Como se verá en la parte 2 del libro, este tipo de evaluación de
impacto depende de la comparación entre un grupo de tratamiento al que se
aplicó la innovación, el programa o la política y un grupo al que no se le
aplicó, con el fin de estimar la efectividad. El principal reto en una evalua-
ción de impacto consiste en construir un grupo de comparación que sea lo
más similar posible al grupo de tratamiento. El grado de comparabilidad
entre los grupos de tratamiento y comparación es central para la “validez
interna” de la evaluación y, por lo tanto, es fundamental para evaluar el
impacto causal de un programa.
Las evaluaciones de impacto también se están utilizando cada vez más
para probar innovaciones de diseño en un programa sin un grupo de compa-
ración “puro” seleccionado fuera del programa. Estos tipos de evaluaciones
a menudo se realizan para ver si una determinada innovación de diseño
puede mejorar la efectividad del programa o disminuir los costos (véase el
recuadro 1.8).
4
Recuadro 1.8: Evaluación de programas innovadores
El equipo de Beahavioural Insights del BIT llegó a la conclusión de que el incentivo

Reino Unido del sorteo aumentó de manera significativa la
Creado en 2010 por el gobierno británico, el inscripción de los votantes. Además, ahorró al
equipo de Behavioural Insights (BIT, por sus gobierno local mucho dinero; anteriormente,
siglas en inglés) fue la primera institución el gobierno había recurrido a una onerosa
estatal destinada a mejorar los servicios campaña puerta a puerta para incrementar la
públicos a través de la aplicación de la cien- inscripción de votantes.
cia del comportamiento. Los objetivos de la En otra evaluación innovadora, el BIT se
organización son mejorar la costo-efectividad asoció con el Servicio Nacional de Salud y el
de los servicios públicos, introducir modelos Departamento de Salud para analizar cómo
realistas de comportamiento humano en los animar en términos costo-efectivos a las per-
análisis de las políticas y permitir que las personas a registrarse como donantes de órga-
sonas tomen mejores decisiones. Con este nos. Se trata de uno de los ensayos aleatorios
objetivo, el BIT utiliza experimentos con eva- controlados más grandes jamás llevados a
luaciones de impacto incorporadas para pro- cabo en el sector público del Reino Unido.
bar ideas innovadoras en las políticas Los investigadores encontraron resultados
públicas. Desde su creación, la organización alentadores a partir de una intervención que
ha implementado más de 150 pruebas de probaba el uso de diferentes mensajes en
control aleatorizado en una amplia variedad una página web pública de alto tránsito. La
de ámbitos de las políticas nacionales, a frase breve con mejores resultados se basó
menudo utilizando datos administrativos. en la idea de reciprocidad y preguntaba: “Si
El BIT ha llevado a cabo evaluaciones de necesitara un trasplante de órganos, ¿recurri-
innovaciones en los servicios públicos sobre ría a él? Si la respuesta es sí, ayude a otros”.
la base de la literatura de la ciencia del com- El BIT es de propiedad conjunta y está
portamiento. La organización colaboró con un financiado por el gobierno británico, Nesta
municipio de Londres para introducir un (una institución de beneficencia para la inno-
incentivo de sorteo para mejorar la inscripción vación), y los propios empleados. El modelo
de los votantes antes de las elecciones. Los se ha ampliado fuera del Reino Unido y se
residentes fueron asignados aleatoriamente a han creado oficinas de BIT en Australia y
tres grupos: i) sin sorteo, ii) un sorteo con un Estados Unidos. Además, Estados Unidos
premio de £1.000 si se inscribían hasta cierta siguió el modelo BIT para crear una iniciativa
fecha y iii) un sorteo con un premio de £5.000 social y de ciencia del comportamiento en la
si se inscribían antes de esa misma fecha. El Casa Blanca en 2015.
Fuente: Behavioural Insights Team.
Las evaluaciones también pueden utilizarse para probar la efectividad de

las alternativas de implementación de un programa. Por ejemplo, pueden
responder a la siguiente pregunta: cuando un programa se puede implemen-
tar de diversas maneras, ¿cuál es la modalidad de programa más efectiva o la
más costo-efectiva? En este tipo de evaluación pueden compararse dos o más
enfoques o rasgos de diseño dentro de un programa para generar evidencia
en relación con cuál es la alternativa más costo-efectiva para lograr un deter-
minado objetivo. A estas alternativas de programa suele denominárselas
“ramas de tratamiento”. Por ejemplo, puede que un programa desee probar
campañas de extensión alternativas y seleccione a un grupo para que reciba
una campaña de correo, mientras que otro es destinatario de visitas puerta a
puerta y un tercero recibe mensajes de texto SMS, para evaluar cuál es el
método más costo-efectivo. Las evaluaciones de impacto que prueban trata-
mientos de programas alternativos suelen incluir un grupo de tratamiento
para cada una de las ramas de tratamiento, así como un grupo de compara-
ción “puro” que no recibe ninguna intervención del programa. Este tipo de
evaluaciones permite que los responsables de la toma de decisiones elijan
entre distintas alternativas de implementación, y puede ser muy útil para
mejorar el desempeño de los programas y ahorrar costos (recuadro 1.9).
Recuadro 1.9: La evaluación de alternativas de diseño de

programas
La desnutrición y el desarrollo cognitivo Primero, los evaluadores utilizaron un pro-

en Colombia ceso de selección para identificar un grupo
A comienzos de los años setenta, la Estación de de 333 niños desnutridos. Estos niños fue-
Investigación de Ecología Humana, en colabora- ron clasificados en 20 sectores por barrio, y
ción con el Ministerio de Educación de cada sector fue asignado aleatoriamente a
Colombia, implementó un programa piloto para uno de cuatro grupos de tratamiento. Los
abordar el problema de la desnutrición infantil en grupos diferían solo en la secuencia en que
Cali, Colombia, mediante atención sanitaria y comenzaban el tratamiento y, por lo tanto, en
actividades educativas, además de alimentos y la cantidad de tiempo que dedicarían al pro-
complementos nutricionales. Como parte del grama. El grupo 4 fue el que empezó primero
plan piloto, un equipo de evaluadores debía y se vio expuesto al tratamiento durante el
determinar cuánto duraría un programa de este período más largo, seguido de los grupos 3,
tipo para reducir la desnutrición entre los niños 2 y 1. El tratamiento consistía en seis horas
en edad preescolar de las familias de bajos diarias de atención sanitaria y actividades
ingresos, y si las intervenciones también podrían educativas, más alimentos y complementos
generar mejoras en el desarrollo cognitivo. nutricionales. A intervalos regulares a lo largo
Finalmente, el programa se implementó del programa, los evaluadores utilizaron prue-
para ocho familias elegibles, aunque durante bas cognitivas para seguir el progreso de los
el plan piloto los evaluadores pudieron com- niños en los cuatro grupos.
parar grupos similares de niños que recibían Los evaluadores llegaron a la conclusión
el tratamiento durante lapsos diferentes. de que los niños que estaban más tiempo

6
Recuadro 1.9: La evaluación de alternativas de diseño de programas (continúa)
en el programa mostraban la mayor mejora Este ejemplo ilustra cómo los encarga-
en el área cognitiva. En el test de inteligen- dos de implementar el programa y los res-
cia Stanford-Binet, que calcula la edad men- ponsables de las políticas pueden utilizar las
tal menos la edad cronológica, el promedio evaluaciones de múltiples ramas de trata-
de los niños del grupo 4 era de -5 meses y el miento para determinar cuál es la alternativa
de los niños del grupo 1 era de -15 meses. más efectiva para un programa.
Fuente: McKay et al. (1978).
Además, se pueden hacer comparaciones entre subgrupos de recepto-

res dentro de una determinada evaluación para responder a la siguiente
pregunta: ¿el programa es más efectivo para un subgrupo que para otro
subgrupo? Por ejemplo, la introducción de un nuevo programa de estudios,
¿aumentó más las puntuaciones de las pruebas entre las alumnas que entre
los alumnos? Este tipo de preguntas de una evaluación de impacto se
orienta a documentar si hay alguna heterogeneidad en los impactos del
programa en diferentes subgrupos. Estas preguntas deben tenerse en
cuenta al comienzo, dado que es necesario incorporarlas en el diseño de
una evaluación de impacto y requieren muestras suficientemente grandes
para llevar a cabo el análisis de los distintos subgrupos de interés.
Más allá de las diversas características del diseño ya tratadas, cabe consi-
derar los canales a través de los cuales las evaluaciones de impacto influyen
en las políticas públicas. Esto puede suceder en relación con decisiones
acerca de continuar, reformar o poner fin a un programa. Los resultados de
la evaluación de impacto también pueden fundamentar el aumento de la
escala de las pruebas piloto, como queda ilustrado en el caso de Mozambique
presentado en el recuadro 1.2.
Las evaluaciones también pueden aportar evidencia de un país a otro o se
pueden utilizar para analizar cuestiones fundamentales, como las relaciona-
das con la conducta. Aventurarse más allá de las fronteras de una evaluación
de un programa individual suscita la pregunta sobre su carácter generaliza-
ble. Como se verá en el capítulo 4, en el contexto de una determinada eva-
luación, la muestra de la evaluación está diseñada para ser estadísticamente
representativa de la población de unidades elegibles de las que se extrae la
propia muestra y, por lo tanto, es externamente válida. Pero más allá de la
validez externa, el carácter generalizable determinará si los resultados de
una evaluación realizada a nivel local serán válidos en otros entornos y para
otros grupos de población. Este concepto más expansivo y ambicioso
depende de la acumulación de evidencia empírica creíble en toda una gama
de entornos.
El campo de la evaluación de impacto se basa cada vez más en el cre-
ciente inventario de evaluaciones creíbles para alcanzar conclusiones
ampliamente generalizables. Este esfuerzo se centra en probar si una
teoría concreta del cambio es válida en diferentes contextos y si un pro-
grama similar probado en entornos diferentes arroja resultados similares
(véase el recuadro 1.10). El uso de múltiples evaluaciones para responder
a preguntas centrales o reunir evidencia a través de meta análisis, estu-
dios sistemáticos y registros de evaluación está aumentando rápida-
mente, y abre una nueva frontera en el trabajo de evaluación. Si los
resultados son consistentes en diferentes y múltiples entornos, esto
brinda mayor confianza a los responsables de las políticas en cuanto a la
viabilidad del programa en toda una gama de contextos y de grupos de
población. Se trata de una consideración importante, dado que los deba-
tes acerca de la capacidad de replicar resultados son fundamentales en
cuestiones relacionadas con la efectividad y escalabilidad más amplia de
un determinado programa.
Recuadro 1.10: El enfoque de evaluaciones de impacto de clusters
Construcción estratégica de la evidencia perspectivas para aplicar más ampliamente

para reducir las brechas de conocimiento las intervenciones de un programa y de las
A pesar de que el carácter generalizable de políticas, utilizando un enfoque de “cluster de
una sola evaluación de impacto puede ser investigación”.
bajo, en combinación con evaluaciones simila- A menudo, las convocatorias de propues-
res en diferentes contextos los profesionales tas se orientan en torno a un conjunto de
del desarrollo pueden elaborar conclusiones preguntas de investigación destinadas a fun-
más ampliamente aplicables a propósito de damentar el programa y el diseño de las polí-
qué funciona y qué no. Cada vez más, las ini- ticas, para generar evaluaciones de impacto
ciativas de evaluación de impacto como el que contribuirán a una base de evidencia
Fondo Estratégico para la Evaluación de coordinada. El objetivo consiste en orientar
Impacto del Banco Mundial (SIEF) y la la investigación y la generación de evidencia
Evaluación de Impacto del Desarrollo (DIME), en torno a tipos de intervenciones o tipos de
así como la Iniciativa Internacional para la resultados.
Evaluación de Impacto (3IE), se proponen Dentro de estos clusters se producen eva-
brindar a los responsables de las políticas luaciones para llenar lagunas en el conjunto

8
Recuadro 1.10: El enfoque de evaluaciones de impacto de clusters (continúa)
de pruebas existente. Por ejemplo, hay sólida Agrupar las evaluaciones en torno a un
evidencia que demuestra que los niños que cúmulo común de preguntas de investiga-
reciben una combinación de nutrición, esti- ción y utilizando una batería clave de instru-
mulación cognitiva y apoyo sanitario en los mentos para medir los resultados permite a
primeros 1.000 días de vida tienen más pro- los responsables de las políticas y a los pro-
babilidades de evitar retrasos en el desarrollo. fesionales del desarrollo ver qué tipos de
Sin embargo, faltan investigaciones sobre programas funcionan en múltiples entornos.
cuál es la mejor manera de prestar este Después, podrán revisar sus propios dise-
apoyo combinado de formas escalables y ños de políticas y programas con un sentido costo-
efectivas. SIEF apoya la investigación más afinado de los contextos en que deter- para
explorar esta pregunta en Bangladesh, minados programas han funcionado o no, o
Colombia, India, Indonesia, Madagascar, teniendo en cuenta cómo en diversos casos
Mozambique, Nepal y Níger. se han logrado resultados concretos.
Fuentes: DIME (www.worldbank.org/dime); SIEF (http://www.worldbank.org/en/programs/sief-trust-fund); 3IE

(http://www.3ieimpact.org).
La decisión de llevar a cabo una evaluación de

impacto
No todos los programas justifican una evaluación de impacto. Las evaluacio-

nes de impacto deberían utilizarse selectivamente cuando la pregunta que
se plantea exige un exhaustivo análisis de la causalidad. Estas evaluaciones
pueden ser costosas si uno tiene que recopilar sus propios datos, y el presu-
puesto con el que se cuenta para la evaluación debería utilizarse de manera
estratégica. Si uno está comenzando, o pensando en ampliar un nuevo pro-
grama y tiene dudas acerca de proceder o no con una evaluación de impacto,
formularse unas pocas preguntas básicas le ayudará en esta decisión.
La primera pregunta que debe formularse es: ¿qué está en juego? ¿Será
que la evidencia del éxito del programa, o la modalidad del mismo o la inno-
vación en el diseño fundamentarán decisiones clave? Estas decisiones a
menudo implican asignaciones presupuestarias y determinan la escala del
programa. Si el presupuesto es limitado o si los resultados afectarán solo a
unas pocas personas, puede que una evaluación de impacto no merezca la
pena. Por ejemplo, puede que no se justifique llevar a cabo una evaluación
de impacto de un programa en una clínica pequeña que ofrece asesoría a los
pacientes de hospital mediante voluntarios. En cambio, una reforma del
salario de los maestros que eventualmente afectará a todos los maestros de
primaria del país sería un programa con elementos mucho más importantes
en juego.
Si se decide que hay mucho en juego la siguiente pregunta es: ¿existe evi-
dencia que demuestre que el programa funciona? Concretamente, ¿se sabe
cuál sería el alcance del impacto del programa? ¿Hay evidencia disponible de
programas similares en circunstancias similares? Si no hay evidencia dispo-
nible acerca del potencial del tipo de programa proyectado, puede que con-
venga comenzar con una prueba piloto que incorpore una evaluación de
impacto. En cambio, si hay evidencia disponible de circunstancias similares,
el costo de una evaluación de impacto probablemente estaría justificado solo
si puede abordar una nueva pregunta determinante para las políticas públi-
cas. Este sería el caso si el programa incluye innovaciones sustanciales que
todavía no han sido probadas.
Para justificar la movilización de recursos técnicos y financieros necesa-
rios para llevar a cabo una evaluación de impacto de alta calidad, la inter-
vención que será evaluada debe ser:
• Innovadora. Probará un enfoque nuevo y prometedor.
• Aplicable. Se puede aumentar la escala o se puede aplicar en un entorno
diferente.
• Estratégicamente relevante. La evidencia proporcionada por la evalua-
ción de impacto fundamentará una decisión clave ligada a la interven-
ción. Esto podría estar relacionado con la ampliación del programa,
reformas o asignaciones presupuestarias.
• No probada. Se sabe poco acerca de la efectividad del programa o de las
alternativas de diseño, tanto a nivel global como en un contexto
específico.
• Influyente. Los resultados se utilizarán para fundamentar decisiones de
políticas.
Una pregunta final es la siguiente: ¿se cuenta con los recursos necesarios para
una buena evaluación de impacto? Estos recursos atañen a elementos técni-
cos, como datos y el tiempo adecuado, recursos financieros para llevar a cabo
la evaluación y recursos institucionales de los equipos que participan, más su
interés y compromiso para construir y utilizar evidencia causal. Como se
aborda en profundidad en el capítulo 12, un equipo de evaluación es esencial-
mente una asociación entre dos grupos: un equipo de responsables de las
políticas y un equipo de investigadores. Los equipos tienen que trabajar en
aras del objetivo común de asegurar que una evaluación técnicamente robusta
y bien diseñada se implemente de manera adecuada y arroje resultados rele-
vantes para cuestiones clave de las políticas y del diseño del programa.
0
Una clara comprensión de la premisa y de la promesa de la evaluación de
impacto por parte del equipo de evaluación contribuirá a asegurar su éxito.
Si usted decide que tiene sentido encarar una evaluación de impacto, en
virtud de las preguntas planteadas y la necesidad relacionada de analizar la
causalidad, más los elementos en juego asociados con los resultados y la
necesidad de evidencia acerca del desempeño de su programa, entonces lo
invitamos a continuar con la lectura. Este libro está dedicado a usted y a su
equipo de evaluación.
Recursos adicionales
• Para material relacionado con este capítulo e hipervínculos de recursos adi-
cionales, se recomienda consultar el sitio web de Evaluación de Impacto en la
Práctica (www.worldbank.org/ieinpractice).
• Para más información sobre las evaluaciones de impacto, véase S. R. Khandker,
G. B. Koolwal y H. A. Samad (2009), Handbook on Quantitative Methods of
Program Evaluation. Washington, D.C.: Banco Mundial.
• Para un buen resumen de las pruebas controladas aleatorias, véase R. Glen-
nerster y K. Takavarasha (2013), Running Randomized Evaluations: A Practical
Guide. Princeton, NJ: Princeton University Press.
• Otros recursos sobre pruebas controladas aleatorias:
➢ E. Duflo, R. Glennerster y M. Kremer (2007), “Using Randomization in
Development Economics Research: A Toolkit.” Documento de discusión
CEPR Núm. 6059. Londres: Center for Economic Policy Research.
➢ E. Duflo y M. Kremer (2008), “Use of Randomization in the Evaluation
of Development Effectiveness.” En: Evaluating Development Effectiveness
(vol. 7). Washington, D.C.: Banco Mundial.
• Otros recursos útiles sobre evaluación de impacto:
➢ F. Leeuw y J. Vaessen (2009), Impact Evaluations and Development. NONIE
Guidance on Impact Evaluation. Washington, D.C.: NONIE.
➢ M. Ravallion (2001), “The Mystery of the Vanishing Benefits: Ms. Speedy
Analyst’s Introduction to Evaluation.” World Bank Economic Review 15 (1):
115–40.
➢ ———.2008. “Evaluating Anti-Poverty Programs.” En: Handbook of Develop-
ment Economics (vol. 4), editado por Paul Schultz y John Strauss. Ámster-
dam: North Holland.
➢ ———.2009. “Evaluation in the Practice of Development.” World Bank
Research Observer 24 (1): 29–53.
Notas
1. Para una visión general de los programas de transferencias condicionadas y el
influyente rol que desempeña el programa de México, así como también su
evaluación de impacto, véase Fiszbein y Schady (2009).

2. Los datos administrativos son aquellos datos recopilados rutinariamente como
parte de la administración del programa e incluyen información sobre costos,
registros y transacciones, normalmente como parte de la prestación de servicios.
3. Hay numerosas tipologías para evaluaciones y preguntas de las evaluaciones.
Véanse Berk y Rossi (1998) y Rossi, Lipsey y Freeman (2003).
4. Los métodos “cuasi experimentales” son métodos de evaluación de impacto que
utilizan un contrafactual, pero se diferencian de los métodos “experimentales”
en el sentido de que no se basan en la asignación aleatoria de la intervención.
Véase la sección 2 para un debate sobre ambos tipos de métodos.
5. Para una visión general de los métodos de investigación cualitativos, véase
Patton (1990).
6. Adaptado del Bureau of Justice Assistance (1997: 97–98 y 102–03).
7. Para un debate detallado sobre el análisis de costo-beneficio, véanse Zerbe y
Dively (1994); Brent (1996); Belli et al. (2001), y Boardman et al. (2001).
Referencias bibliográficas
Ananthpur, K., K. Malik y V. Rao. 2014. “The Anatomy of Failure: An Ethnography
of a Randomized Trial to Deepen Democracy in Rural India.” Documento de
trabajo de investigación 6958. Washington, D.C.: Banco Mundial.
Bamberger, M., V. Rao y M. Woolcock. 2010. “Using Mixed Methods in Monitoring
and Evaluation: Experiences from International Development.” Documento de
trabajo de investigación de políticas Núm. 5245. Washington, D.C.: Banco
Mundial.
Banerjee, A., E. Duflo, N. Goldberg, D. Karlan, R. Osei, et al. 2015. “A Multifaceted
Program Causes Lasting Progress for the Very Poor: Evidence from Six
Countries.” Science 348 (6236). doi:10.1126/science.1260799.
Behrman, J. R. y J. Hoddinott. 2001. “An Evaluation of the Impact of PROGRESA
on Pre-school Child Height.” FCND Briefs 104, International Food Policy
Research Institute, Washington, D.C.
Belli, P., J. Anderson, H. Barnum, Jo. Dixon y J. P. Tan. 2001. Handbook of Economic
Analysis of Investment Operations. Washington, D.C.: Banco Mundial.
Berk, R. A. y P. Rossi. 1998. Thinking about Program Evaluation 2 (2da. edición).
Thousand Oaks, CA: Sage Publications.
Berman, D. 2014. “Tanzania: Can Local Communities Successfully Run Cash
Transfer Programs?” Washington, D.C.: Human Development Network, Banco
Mundial.
Boardman, A., A. Vining, D. Greenberg y D. Weimer. 2001. Cost-Benefit Analysis:
Concepts and Practice. New Jersey: Prentice Hall.
Bourguignon, F., F. H. G. Ferreira y P. G. Leite. 2003. “Conditional Cash Transfers,
Schooling y Child Labor: Micro-Simulating Brazil’s Bolsa Escola Program.”
The World Bank Economic Review 17 (2): 229–54.
BRAC (Bangladesh Rural Advancement Committee). 2013. “An End in Sight for
Ultra-poverty.” Nota de información de BRAC (noviembre). Disponible en
http://www.brac.net/sites/default/files/BRAC%20Briefing%20-%20TUP.pdf.

2
Brent, R. 1996. Applied Cost-Benefit Analysis. Cheltenham, Reino Unido: Edward
Elgar.
Bureau of Justice Assistance. 1997. Urban Street Gang Enforcement. Informe
preparado por el Institute for Law and Justice, Inc. Washington, D.C.: Office
of Justice Programs, Bureau of Justice Assistance, U.S. Department of
Justice.
Creswell, J. W. 2014. Research Design: Qualitative, Quantitative, and Mixed Methods
Approaches. Thousand Oaks, CA: Sage Publications.
Evans, D. K., S. Hausladen, K. Kosec y N. Reese. 2014. “Community-based
Conditional Cash Transfers in Tanzania: Results from a Randomized Trial.”
Washington, D.C.: Banco Mundial.
Fiszbein, A. y N. Schady. 2009. Conditional Cash Transfers, Reducing Present and
Future Poverty. Documento de trabajo de investigación de políticas Núm. 47603.
Gertler, P. J. 2004. “Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESA’s Control Randomized Experiment.” American
Economic Review 94 (2): 336–41.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Imas, L. G. M. y R. C. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington, D.C.: Banco Mundial.
Kremer, M., C. Brannen y R. Glennerster. 2013. “The Challenge of Education and
Learning in the Developing World.” Science 340 (6130): 297–300.
Khandker, S., G. B. Koolwal y H. A. Samad. 2010. Handbook on Impact Evaluation:
Quantitative Methods and Practices. Washington, D.C.: Banco Mundial.
Levy, S. y E. Rodríguez. 2005. Sin herencia de pobreza: el programa Progresa-
Oportunidades de México. Washington, D.C.: BID.
Martínez, S., S. Nadeau y V. Pereira, 2012. “The Promise of Preschool in Africa: A
Randomized Impact Evaluation of Early Childhood Development in Rural
Mozambique.” Washington, D.C.: Banco Mundial y Save the Children.
McKay, H., A. McKay, L. Siniestra, H. Gómez y P. Lloreda. 1978. “Improving
Cognitive Ability in Chronically Deprived Children.” Science 200 (21): 270–78.
Patton, M. Q. 1990. Qualitative Evaluation and Research Methods (2da. edición).
Newbury Park, CA: Sage.
Rao, V. y M. Woolcock. 2003. “Integrating Qualitative and Quantitative
Approaches in Program Evaluation.” En: F. J. Bourguignon y L. Pereira da
Silva, The Impact of Economic Policies on Poverty and Income Distribution:
Evaluation Techniques and Tools, pp. 165–90. Nueva York: Oxford University
Press.
Rossi, P., M. W. Lipsey y H. Freeman. 2003. Evaluation: A Systematic Approach
(7ma. edición) Thousand Oaks, CA: Sage Publications.
Schultz, P. 2004. “School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program.” Journal of Development Economics 74 (1): 199–250.
Skoufias, E. y B. McClafferty. 2001. “Is Progresa Working? Summary of the Results
of an Evaluation by IFPRI.” Washington, D.C.: International Food Policy
Research Institute.

Todd, P. y K. Wolpin. 2006. “Using Experimental Data to Validate a Dynamic
Behavioral Model of Child Schooling and Fertility: Assessing the Impact of a
School Subsidy Program in Mexico.” American Economic Review 96 (5):
1384–1417.
Zerbe, R. y D. Dively. 1994. Benefit Cost Analysis in Theory and Practice. Nueva York:
Harper Collins Publishing.

4
CAPÍTULO 2
La preparación de una
evaluación
Pasos iniciales
Este capítulo reseña los pasos iniciales que es preciso ejecutar para configu-
rar una evaluación. Estos pasos son: i) construir una teoría del cambio que
describa cómo se supone que el proyecto logrará los objetivos previstos;
ii) elaborar una cadena de resultados que sirva como instrumento útil para
esbozar la teoría del cambio; iii) especificar las preguntas de la evaluación; y
iv) seleccionar los indicadores para evaluar el desempeño.
Los cuatro pasos son necesarios y es preferible implementarlos al inicio, es
decir, cuando comienza a diseñarse el proyecto de evaluación del programa o
de las reformas. Esto requiere la participación de todas las partes interesadas,
desde los responsables de las políticas hasta los implementadores del pro-
yecto, con el fin de forjar una visión común de los objetivos y de cómo serán
alcanzados. Esta participación permitirá crear un consenso sobre el enfoque
de la evaluación y las principales preguntas a responder, y reforzará los víncu-
los entre la evaluación, la implementación del programa y el diseño de políti-
cas públicas. La aplicación de estos pasos contribuye a la claridad y la
especificidad, que son útiles tanto para elaborar una buena evaluación de
impacto como para diseñar e implementar un programa efectivo. Cada uno de
los pasos está claramente definido y está articulado en el modelo lógico incor-
porado en la cadena de resultados desde la precisión en la determinación de
35
los objetivos y las preguntas hasta la definición de las ideas integradas en la
teoría del cambio, y los resultados esperados por la implementación del pro-
grama. Se requiere una especificación clara de los indicadores concretos que
se utilizarán para medir el éxito del programa, no solo para asegurar que la
evaluación esté enfocada sino también que el programa tenga objetivos bien
definidos. Esto también proporciona una base firme para anticipar los efectos
producidos. Estos parámetros son esenciales para definir los elementos técni-
cos de la evaluación, incluyendo el tamaño de la muestra requerida para la
evaluación y los cálculos de la potencia, como se analiza en el capítulo 15.
En la mayoría de las evaluaciones de impacto será importante incluir una
evaluación de costo-beneficio, o costo-efectividad, como se indica en el
capítulo 1. Los formuladores de política deberán estar atentos para saber
qué programas o reformas son efectivos pero también cuál es su costo.
Se trata de un aspecto crucial para fundamentar decisiones acerca de si es
viable aumentar la escala de un programa y si es posible replicarlo, dos con-
sideraciones importantes en las decisiones de políticas públicas.
Construcción de una teoría del cambio
Una teoría del cambio es la descripción de cómo se supone que una interven-
ción conseguirá los resultados deseados. En ese sentido, expone la lógica cau-
sal de cómo y por qué un proyecto, una modalidad de programa o un diseño
de innovación lograrán los resultados previstos. Debido al enfoque causal de
la investigación, una teoría del cambio es la base de cualquier evaluación de
impacto. Su construcción es uno de los primeros requisitos para el diseño del
proyecto, ya que contribuye a especificar las preguntas de la investigación.
Las teorías del cambio describen una secuencia de eventos que generan
resultados: analizan las condiciones y los supuestos necesarios para que
se produzca el cambio, explicitan la lógica causal inscrita en el programa y
trazan el mapa de las intervenciones del programa a lo largo de las vías lógicas
causales. Configurar una teoría del cambio en conjunto con las partes intere-
sadas puede clarificar y mejorar el diseño del programa. Esto es especialmente
importante en los programas que pretenden influir en las conductas, pues las
teorías del cambio pueden ayudar a determinar los insumos y actividades de
la intervención, qué productos se generan y cuáles son los resultados finales
derivados de los cambios de comportamiento de los beneficiarios.
El mejor momento para desarrollar una teoría del cambio es al comienzo
de la fase de diseño, cuando es posible reunir a las partes interesadas con el
fin de definir una visión colectiva del programa, sus objetivos y la ruta para
alcanzar esos objetivos. Así, las partes interesadas podrán implementar el
programa a partir de un entendimiento común del mismo, de sus objetivos y
de su funcionamiento.
Por otra parte, es útil que los diseñadores de programas revisen la
literatura en busca de evidencia que describa experiencias y programas
similares, y comprueben los contextos y los supuestos detrás de las vías
causales de la teoría del cambio que configuran. Por ejemplo, en el caso del
proyecto de reemplazo de suelos de tierra por suelos de cemento desarro-
llado en México (que se reseña en el recuadro 2.1), la literatura aporta
Recuadro 2.1: La articulación de una teoría del cambio: de los

pisos de cemento a la felicidad en México
En la evaluación del proyecto Piso Firme, multiplican en las heces y pueden ser ingeridos
Cattaneo et al. analizaron el impacto de la por las personas cuando son introducidos en
mejora de las viviendas en la salud y el el interior de la vivienda por los seres humanos
bienestar. Tanto el proyecto como la evaluación o los animales. La evidencia demuestra que
estuvieron motivados por una clara teoría del los niños pequeños que habitan en casas con
cambio. suelos de tierra tienen más probabilidades de
El objetivo del proyecto Piso Firme consiste sufrir infecciones intestinales provocadas
en aumentar la calidad de vida, sobre todo en por parásitos, que pueden causar diarrea y
lo referente a la salud, de los grupos vulnerables desnutrición y que a menudo perjudican el
que viven en zonas densamente pobladas y de desarrollo cognitivo e incluso pueden llevar a la
bajos ingresos en México. El programa se muerte. Los suelos de cemento interrumpen
inició en el estado norteño de Coahuila sobre la transmisión de las infecciones de los
la base de una evaluación contextual llevada a parásitos. También controlan la temperatura
cabo por el gobierno estadual. de manera más eficiente y mejoran el aspecto
La cadena de resultados del programa es de la vivienda.
clara. Se realizan visitas puerta por puerta en Estos resultados previstos sirvieron
los barrios elegidos para ofrecer a los hogares de fundamento para las preguntas que
la construcción de 50 m² de suelo de cemento. Cattaneo et al. (2009) formularon en la eva-
El gobierno compra y entrega el cemento y luación. La hipótesis del equipo era que al
los hogares y los voluntarios comunitarios reemplazar los suelos de tierra con suelos de
aportan la mano de obra. El producto es la cemento se reduciría la incidencia de la dia-
construcción de un suelo de cemento que se rrea, la desnutrición y la deficiencia de micro-
puede completar aproximadamente en un nutrientes. A su vez, las mejoras en la salud
día. Entre los resultados previstos por este y nutrición deberían impactar positivamente
programa se destacan una mayor limpieza, en el desarrollo cognitivo de los niños peque-
una mejora en la salud de los habitantes de la ños. Los investigadores también anticiparon
casa y un aumento de su felicidad. y comprobaron un mayor bienestar entre los
La lógica de esta cadena de resultados es adultos, medido por el aumento de la satis-
que los suelos de tierra son un foco de facción en la población respecto de las condi-
enfermedades parasitarias porque es difícil ciones de sus viviendas y el descenso de las
mantenerlos limpios. Los parásitos viven y se tasas de depresión y de estrés percibidas.
Fuente: Cattaneo et al. (2009).
La preparación de una evaluación 37

información valiosa sobre cómo se transmiten los parásitos y de qué
manera la infestación provocada por estos organismos produce diarrea
infantil.
Desarrollo de una cadena de resultados
Una cadena de resultados es una manera de describir una teoría del cambio.
Otros enfoques incluyen modelos teóricos, modelos lógicos, marcos lógicos
y modelos de resultados. Todos estos modelos integran los elementos bási-
cos de una teoría del cambio, a saber: una cadena causal, una especificación
de las condiciones e influencias externas y la determinación de los supues-
tos clave. En este libro se utilizará el modelo de cadena de resultados porque
es el más sencillo y claro para describir la teoría del cambio en el contexto
Concepto clave operativo de los programas de desarrollo.
Una cadena de Una cadena de resultados establece la lógica causal desde el inicio del
resultados establece la programa, empezando con los recursos disponibles, hasta el final,
secuencia de insumos,
teniendo en cuenta los objetivos de largo plazo. Fija una definición lógica
actividades y
productos que y plausible de cómo una secuencia de insumos, actividades y productos
previsiblemente relacionados directamente con el proyecto interactúa con el comporta-
mejorarán los miento y define las vías para lograr los impactos (véase el gráfico 2.1). Una
resultados y los cadena de resultados básica esquematizará un mapa con los siguientes
resultados finales.
elementos:
• Insumos. Los recursos de que dispone el proyecto, que incluyen el
personal y el presupuesto.
• Actividades. Las acciones emprendidas o el trabajo realizado para trans-
formar los insumos en productos.
• Productos. Los bienes y servicios tangibles que producen las actividades
del programa (controlados de forma directa por la agencia ejecutora).
• Resultados. Los resultados que previsiblemente se lograrán cuando la
población se beneficie de los productos del proyecto. En general, estos
resultados se observan entre el corto y el mediano plazo y no suelen estar
controlados de forma directa por la agencia ejecutora.
• Resultados finales. Los resultados finales alcanzados señalan si los objeti-
vos del proyecto se cumplieron o no. Normalmente, los resultados finales
dependen de múltiples factores y se producen después de un período
más largo.
Tanto la implementación como los resultados forman parte de la cadena
de resultados. La ejecución tiene que ver con el trabajo efectuado en el
Gráfico 2.1 Los elementos de una cadena de resultados
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS FINALES
Recursos Acciones Productos Uso de los El objetivo

financieros, emprendidas o resultantes de productos final del
humanos y de trabajo realizado la transformación por parte de programa.
otro tipo que se para transformar de insumos en la población
movilizan para los insumos en productos beneficiaria.
realizar las productos tangibles. Objetivos de
actividades. específicos. largo plazo.
Presupuestos, Serie de Bienes y servicios No totalmente Cambios en

dotación de actividades producidos bajo el bajo el control los resultados
personal y otros emprendidas control de la de la agencia producidos por
recursos para producir agencia ejecutora. ejecutora. múltiples
disponibles. bienes y factores.
servicios.
Resultados (LADO DE LA DEMANDA +

Implementación (LADO DE LA OFERTA)
LADO DE LA OFERTA)
Fuente: Elaboración propia, sobre la base de múltiples fuentes.
proyecto, que incluye insumos, actividades y productos. Estos ámbitos, que

son responsabilidad directa del proyecto, suelen ser monitoreados para
verificar si el proyecto está generando los bienes y servicios previstos. Los
resultados comprenden los resultados y los resultados finales, que no son
controlados de manera directa por el proyecto y dependen de cambios en el
comportamiento de los beneficiarios del programa, es decir, dependen de
las interacciones entre la oferta (la implementación) y la demanda (los
beneficiarios). Por lo general, estos ámbitos son objeto de evaluaciones de
impacto para medir su efectividad.
Una buena cadena de resultados contribuirá a hacer aflorar los supuestos y
riesgos implícitos en la teoría del cambio. Los formuladores de políticas
están mejor situados para articular la lógica causal y los supuestos en los
que descansa, así como los riesgos que pueden influir en el logro de los resul-
tados previstos. El equipo que dirige la evaluación deberá explicitar los
supuestos y riesgos implícitos en consulta con los responsables de las políti-
cas. Una buena cadena de resultados también incluirá evidencia provista por
la literatura relacionada con los resultados de programas similares.
Las cadenas de resultados son útiles para todos los proyectos, indepen-
dientemente de que contemplen o no una evaluación de impacto, porque
permiten a los responsables de las políticas y a los administradores del pro-
grama explicitar los objetivos del proyecto, lo que contribuye a clarificar la

lógica causal y la secuencia de eventos que se encuentran detrás de un
programa. Además, pueden identificar brechas y eslabones débiles en el
diseño del programa y, por lo tanto, pueden ayudar a mejorar su diseño.
Las cadenas de resultados también facilitan el monitoreo y la evaluación
pues especifican cuál es la información que debe ser monitoreada en cada
eslabón de la cadena para realizar un seguimiento de la implementación del
programa, y definen qué indicadores de resultados hay que incluir cuando
se evalúa el proyecto.
La especificación de las preguntas de la

evaluación
La claridad de la pregunta de la evaluación es el punto de partida de cual-

quier evaluación efectiva. La formulación de esta pregunta debe centrarse
en la investigación, para asegurar que se ajusta al interés de las políticas
en cuestión. En el caso de una evaluación de impacto, es necesario estruc-
turarla como una hipótesis comprobable. La evaluación de impacto luego
genera evidencia creíble para responder esa pregunta. Como se indicó
antes, la pregunta fundamental de la evaluación de impacto es: ¿cuál es el
impacto (o el efecto causal) de un programa en un resultado de interés?
Se pone énfasis en el impacto, es decir, en los cambios directamente atri-
buibles a un programa, a una modalidad de programa o a una innovación
de diseño.
La pregunta de la evaluación debe orientarse según el interés central de
las políticas en cuestión. Como se señaló en el capítulo 1, las evaluaciones de
impacto pueden analizar toda una gama de preguntas. En ese sentido, antes
de estudiar cómo se llevará a cabo el proyecto, el equipo de evaluación debe-
ría aclarar cuál es la pregunta que se analizará como primer paso, sobre la
base de la teoría del cambio.
Tradicionalmente, las evaluaciones de impacto se han centrado en el
impacto que tiene un programa plenamente implementado en los resulta-
dos finales y en contraste con los resultados observados en un grupo de
comparación que no ha sido beneficiado por el programa. Sin embargo, el
uso actual de las evaluaciones de impacto se está ampliando. El equipo de
evaluación puede inquirir: ¿la pregunta de evaluación clave es la pregunta
“clásica” acerca de la efectividad de un programa para cambiar los resulta-
dos finales? ¿O se trata de probar si una modalidad de programa es más
costo-efectiva que otra o bien de introducir una innovación en el diseño
del programa que, de manera previsible, cambiará las conductas, como
la matriculación? En la actualidad la evaluación de impacto está

incorporando nuevos enfoques, de manera creativa, para abordar las cues-
tiones de interés para el diseño de políticas, en una vasta gama de discipli-
nas (véase el recuadro 2.2).
En una evaluación de impacto, la pregunta de la evaluación debe ser
formulada como una hipótesis bien definida y comprobable, que pueda cuanti-
ficar la diferencia entre los resultados obtenidos al contrastar los grupos de
tratamiento y comparación. La cadena de resultados puede usarse como base
para formular la hipótesis que se busca probar a partir de la evaluación de
impacto. Como se señala en el recuadro 2.3, a menudo hay unas cuantas hipó-
tesis asociadas con el programa, pero no es necesario explorar todas en una
evaluación de impacto, y tampoco es posible hacerlo. En el ejemplo del pro-
grama de estudio de matemáticas que reseña el recuadro 2.2, la pregunta de la
evaluación deriva de elementos fundamentales de la teoría del cambio y se
formula como una hipótesis clara, comprobable y cuantificable: ¿cuál es el
Recuadro 2.2: Experimentos de mecanismo

Un experimento de mecanismo es una eva- Por ejemplo, un equipo de trabajo busca
luación de impacto que prueba un meca- establecer si las personas que viven en
nismo causal específico dentro de la teoría barrios pobres de una ciudad tienen tasas de
del cambio. Por ejemplo: se ha identificado obesidad más altas que las personas que
un problema y se ha hallado un posible pro- viven en sectores más acomodados de la
grama para remediarlo. Es preciso diseñar misma ciudad. Después de realizar una
una evaluación a fin de probar la efectividad investigación, el equipo observa que los
del programa. ¿La evaluación debería probar barrios pobres cuentan con menos tiendas y
directamente el impacto del programa? Una puestos de frutas y verduras frescas y otros
corriente de pensamiento actual sostiene alimentos nutritivos y estima que esta falta
que una evaluación de programa de ese tipo de oferta puede estar contribuyendo a la
quizá no sea siempre la mejor manera de obesidad, y que la situación se podría reme-
comenzar y que, en algunos casos, puede diar mediante la entrega de subsidios a los
ser preferible no llevar a cabo una evaluación fruteros a fin de que operen más puntos de
de programa sino más bien poner a prueba venta. Una simple cadena de resultados
algunos de los supuestos o mecanismos podría tener el aspecto que se presenta en
subyacentes. Los experimentos de meca- el gráfico B2.2.1.
nismo no prueban un programa; lo que prue- Una evaluación del programa se centraría
ban es un mecanismo causal que subyace a en probar el impacto de los subsidios a las
la elección de un programa. fruterías en un conjunto de barrios pobres.

Recuadro 2.2: Experimentos de mecanismo (continúa)
Gráfico B2.2.1 Identificación de un experimento de mecanismo en una cadena de

resultados más larga
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES
7 F,+",0 7 S2 0'"',0 a ),0 7 A2*#+1, "#) +?*#/, 7 L,0 /#0'"#+1#0 "# 7 M#+,/ -/#3a)#+!'a
3#+"#",/#0 "# "# 1'#+"a0/-2#01,0 a//',0 -, /#0 "# )a , #0'"a"
$/21a0 5 3#/"2/a0 .2# 3#+"#+ $/21a 5 !,+02*#+ *;s #+1/# /#0'"#+1#0
3#/"2/a a)'*#+1,0 +21/'1'3,0 "# a//',0 -, /#s
7 Ma5,/ "'0-,+' ')'"a"
"# a)'*#+1,0 +21/'1'3,0
#+ a//',0 -, /#0
R#02)1a",0 (LADO DE LA DEMANDA +

I*-)#*#+1a!'>+ (LADO DE LA OFERTA)
LADO DE LA OFERTA)
En cambio, un experimento de mecanismo se En general, un experimento de mecanismo

enfocaría en evidenciar de manera más directa debería ser mucho más barato de implemen-
los supuestos subyacentes. Por ejemplo, tar que una evaluación de programa completa,
puede poner a prueba el siguiente supuesto: si porque se puede llevar a cabo en una escala
los habitantes de los barrios pobres tienen más más pequeña. En el ejemplo anterior de la
acceso a alimentos nutritivos, comerán más obesidad, proporcionar subsidios a los fruteros
de estos alimentos. Una forma de demostrarlo en numerosos barrios y supervisar a un gran
podría ser distribuir una canasta de frutas y número de residentes en esos barrios sería
verduras gratis una vez a la semana a un grupo bastante caro, mientras que la entrega de la
de habitantes y comparar su consumo de cesta con productos gratis resultaría mucho
frutas y verduras con el de los residentes que menos costosa y sería suficiente para contar
no reciben la canasta gratis. Si no se encuentran con la participación de varios cientos de fami-
diferencias en el consumo de frutas y lias. Si el experimento de mecanismo demues-
verduras en este experimento de mecanismo tra que el mecanismo funciona, todavía habría
es probable que tampoco los subsidios a las que realizar un experimento de las políticas
fruterías tengan un impacto significativo debido para evaluar si los subsidios son una manera
a que uno de los mecanismos causales efectiva de proveer frutas y verduras a los
subyacentes no está funcionando. habitantes de los barrios pobres.
Fuente: Ludwig, Kling y Mullainathan (2011).
efecto del nuevo programa de matemáticas en las puntuaciones de las prue-

bas? En el ejemplo que se analiza a lo largo del libro, el Programa de Subsidios
de Seguros de Salud, la pregunta de la evaluación es: ¿cuál es el efecto del
Programa de Subsidios de Seguros de Salud en los gastos directos en salud de
los hogares pobres?
Recuadro 2.3: Una reforma de las matemáticas en la enseñanza
secundaria: elaboración de una cadena de resultados y una
pregunta de la evaluación
El ministerio de Educación de un país X está donde se impartirá la formación de los pro-
pensando en introducir un nuevo programa de fesores de matemáticas.
estudio de matemáticas en la enseñanza 8 Las actividades del programa consisten
secundaria. La currícula ha sido diseñada para en diseñar la nueva currícula de estudio de
que resulte ser más accesible a los profesores matemáticas, desarrollar un programa de
y a los alumnos, a fin de mejorar el desempeño capacitación de los profesores, capacitar a
de los estudiantes en pruebas estandarizadas los profesores, y encargar la impresión y la
de matemáticas y, eventualmente, optimizar distribución de los nuevos libros de texto.
su capacidad para completar la escuela 8 Los productos son el número de profeso-
secundaria y tener acceso a mejores empleos. res que recibieron capacitación, el número
Esta cadena de resultados esboza la teoría de libros de texto entregados en las aulas
del cambio del programa. y la adaptación de pruebas estandarizadas
8 Los insumos comprenden el personal del al nuevo programa de estudio.
ministerio de Educación para liderar la 8 Los resultados en el corto plazo son la
reforma, los profesores de matemáticas aplicación por parte de los profesores de
de las escuelas secundarias, un presu- los nuevos métodos, el uso de los libros
puesto para desarrollar el nuevo programa de texto en las aulas y la administración
de estudio, y las instalaciones municipales de las nuevas pruebas.
Gráfico B2.3.1 Cadena de resultados para la reforma de la currícula de matemática
en la escuela secundaria
RESULTADOS
FINALES
7 P/#02-2#01, -a/a 7 D'0#=, "#) +2#3, 7 5.000 -/,$#0,/#0 7 L,0 -/,$#0,/#0 20a+ 7 M#(,/a "# )a0 1a0a0
#) +2#3, -/,%/a*a -/,%/a*a "# "# *a1#*;1'!a0 ),0 )' /,0 "# 1#41, "# $'+a)'6a!'>+.
"# *a1#*;1'!a0. #012"',0. "# 0#!2+"a/'a 5 #) +2#3, -/,%/a*a 7 A2*#+1, "# ),0
7 D,1a!'>+ "# 7 Ca-a!'1a!'>+ "# !a-a!'1a",0. "# #012"',0 #+ '+%/#0,0.
-#/0,+a) "#) -/,$#0,/#0. 7 100.000 )' /,0 "# )a !)a0#. 7 A2*#+1, "#) #*-)#,.
*'+'01#/', "# 7 E"'!'>+, '*-/#0'>+, 1#41, #+1/#%a",0 7 L,0 #012"'a+1#0
0'%2#+ #) -/,%/a*a
E"2!a!'>+ 5 "# "'01/' 2!'>+ "# #+ )a0 !)a0#0.
"# #012"',0.
-/,$#0,/#0 "# +2#3,0 )' /,0
7 M#(,/a "#)
0#!2+"a/'a. "# 1#41,. "#0#*-#=, "# ),0
7 I+01a)a!',+#0 #012"'a+1#0 #+ ),0
*2+'!'-a)#0 "# #4;*#+#0 "#
!a-a!'1a!'>+. *a1#*;1'!a0.

LADO DE LA OFERTA)

Recuadro 2.3: Una reforma de las matemáticas en la enseñanza secundaria: elaboración de una cadena
de resultados y una pregunta de la evaluación (continúa)
8 Los resultados en el mediano plazo son 8 Si la implementación se lleva a cabo

las mejoras en el desempeño de los como estaba previsto, los resultados de
alumnos en las pruebas estandarizadas las pruebas de matemáticas mejorarán
de matemáticas. en un promedio de 5 puntos.
8 Los resultados finales son el aumento en las 8 El desempeño en las matemáticas en la
tasas de finalización de los estudios secun- secundaria influye en las tasas de finali-
darios y en las tasas de empleo, y el incre- zación de la enseñanza secundaria, en las
mento en los ingresos de los graduados. perspectivas de empleo y en el nivel de
Diversas hipótesis sustentan la teoría del los ingresos.
cambio:
La pregunta más importante de la evalua-
8 Los profesores que recibieron formación ción, que ha sido desarrollada por el equipo
utilizan el nuevo programa de estudio de de responsables de las políticas del Ministe-
manera efectiva. rio de Educación y los investigadores que
8 Si los profesores reciben capacitación y participaron para determinar la efectividad
se distribuyen los libros de texto, estos del programa, es: ¿cuál es el efecto del
se emplearán y los alumnos seguirán el nuevo programa de estudio de matemáticas
programa de estudio. en las puntuaciones de las pruebas? Esta
8 El nuevo programa es superior al antiguo pregunta apunta al corazón del interés de las
en la manera de impartir los conocimien- políticas en cuanto a la efectividad del nuevo
tos de matemáticas. programa de estudios.
El Programa de Subsidios de Seguros de Salud: una

introducción
El Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en

inglés, Health Insurance Subsidy Program) es un caso ficticio de un
gobierno que emprende una reforma en gran escala del sector de la salud.
Las preguntas relacionadas con este caso se utilizarán en todo el libro.
El sitio web de Evaluación de Impacto en la Práctica (http://www
.worldbank.org/ieinpractice) contiene soluciones para las preguntas del
estudio de caso del HISP, una base de datos y el código de análisis en
StataTM, así como un manual técnico en línea que proporciona un trata-
miento más formal del análisis de datos.
El objetivo final del HISP es mejorar la salud de la población del país.
El innovador –y potencialmente caro– HISP se encuentra en etapa de
pruebas. El gobierno está preocupado porque los hogares rurales pobres
no pueden permitirse los costos de una atención sanitaria básica, lo cual

tiene consecuencias perjudiciales para su salud. A fin de abordar este
problema, el HISP subsidia seguros de salud para los hogares rurales
pobres, y cubre los costos relacionados con la atención primaria y los
medicamentos. El propósito central del HISP consiste en reducir el costo
de la atención sanitaria de las familias pobres y, eventualmente, mejorar
los resultados de salud. Los responsables de las políticas están pensando
en ampliar el HISP para cubrir al conjunto del país, lo cual costaría cien-
tos de millones de dólares.
La cadena de resultados del HISP se ilustra en el gráfico 2.2. Las hipó-
tesis relacionadas con la reforma del HISP son: i) los hogares se inscribi-
rán en el programa una vez que se les ofrezca, ii) la inscripción en el
programa disminuirá los gastos directos de los hogares en salud, iii) los
costos impiden a la población rural tener acceso a la atención sanitaria
y a los medicamentos disponibles, y iv) los gastos directos en los costos
vinculados con la salud son un factor fundamental que contribuye a la
pobreza y a los malos resultados de salud.
La pregunta clave de la evaluación es: ¿cuál es el impacto del Programa
de Subsidios de Seguros de Salud en los gastos directos de los hogares en
atención sanitaria? Tanto en el libro como en el material en línea, esta
pregunta de la evaluación con relación al HISP será respondida varias
veces, a partir de diferentes enfoques metodológicos. En ese marco, sur-
girán respuestas distintas –y a veces opuestas–, de acuerdo con la meto-
dología de evaluación utilizada.
Gráfico 2.2 La cadena de resultados del HISP
RESULTADOS
FINALES
7 P/#02-2#01, -a/a 7 D'0#=, "# ),0 7 E.2'-a*'#+1,0 "# 7 N?*#/, 5 -,/!#+1a(# 7 M#(,/a #+ ),0
#) -)a+ -'),1, HISP. #+#$'!',0 5 #) 0a)2" #+ 100 "# &,%a/#0 #)#%' )#0 /#02)1a",0 "#
7 R#" "# $2+!',+a*'#+1, "#) !,*2+'"a"#0 /2/a)#0 '+0!/'1,0 #) -/'*#/ a=,. 0a)2".
#.2'-a*'#+1,0 HISP. -'),1, .2# -a/1'!'-a+ 7 M#+,/ %a01, #+ 0a)2"
"# 0a)2". 7 F,/*a!'>+ "# "#) -/,%/a*a. "# ),0 &,%a/#0 /2/a)#0
7 P#/0,+a) #+ -#/0,+a) #+ !)<+'!a0 7 Ca*-a=a -a/a ))#%a/ -, /#0.
,$'!'+a0 "# 0a)2" /2/a)#0 "# a 4.959 &,%a/#0 7 M#(,/a "#) a!!#0, a
"#) %, '#/+, !,*2+'"a"#0 -'),1,. #)#%' )#0 #+ )a0 a1#+!'>+ -/'*a/'a.
!#+1/a) 5 ),!a). 7 E01a )#!'*'#+1, "# !,*2+'"a"#0 -'),1,. 7 Sa1'0$a!!'>+ !,+ #)
0'01#*a0 "# -a%,0 5 -/,%/a*a HISP.
"# '+$,/*a!'>+ 0, /#
%#01'>+.
7 La+6a*'#+1, "#) HISP
#+ 100 !,*2+'"a"#0
/2/a)#0 -'),1,.
7 Ca*-a=a '+$,/*a1'3a
5 #"2!a1'3a.
LADO DE LA OFERTA)

La selección de indicadores de resultados y
desempeño
Una pregunta clara de la evaluación debe ir acompañada de la especifica-

ción acerca de qué medidas de resultado se utilizarán para evaluar el desem-
peño, incluso en el caso de múltiples resultados. Las medidas de resultado
seleccionadas se usarán para establecer si un programa o una reforma deter-
minados tienen éxito o no. También son los indicadores que se pueden
emplear como referencia al realizar los cálculos de la potencia con el fin de
fijar los tamaños de la muestra necesarios para la evaluación, como se verá
en el capítulo 15.
Luego de seleccionar los principales indicadores de interés, es preciso
definir objetivos claros en lo relativo al éxito del programa. Este paso equi-
vale a determinar el efecto anticipado del programa sobre los principales
indicadores de resultado que se han seleccionado. Los tamaños del efecto
son los cambios previstos como resultado del programa o de la reforma; por
ejemplo, el cambio en las puntuaciones de las pruebas o en la tasa de adop-
ción de un nuevo tipo de póliza de seguro. Los tamaños del efecto previstos
son la base para llevar a cabo cálculos de la potencia (que se abordan con
más detalles técnicos en el capítulo 15).
Es fundamental que los principales agentes interesados en el equipo de
evaluación (tanto el equipo de investigación como el equipo de políticas
públicas) estén de acuerdo tanto en los indicadores primarios de resulta-
dos de interés en la evaluación de impacto, como en los tamaños esperados
de los efectos previstos como resultado del programa o de la innovación
(para más detalles sobre el equipo de evaluación, véase el capítulo 12), ya
que se usarán para juzgar el éxito del programa y formar la base de los cál-
culos de la potencia. Numerosas evaluaciones de impacto fracasan porque
los tamaños de muestra no son lo bastante grandes para detectar los cam-
bios generados por el programa: tienen un “déficit de potencia”. En ese
sentido, es sustancial definir los tamaños mínimos previstos del efecto para
establecer criterios básicos del éxito del programa o de la innovación.
Cuando hay datos disponibles, es posible realizar simulaciones ex ante
para observar diferentes escenarios de resultados con el fin de establecer
una referencia del tipo de tamaños del efecto que se pueden esperar en una
gama de indicadores. Las simulaciones ex ante también se pueden utilizar
para revisar indicadores iniciales de costo-beneficio o costo-efectividad y
comparar intervenciones alternativas para provocar cambios en los resul-
tados de interés.
Una cadena de resultados articulada con claridad proporciona un mapa
útil para seleccionar los indicadores que se medirán a lo largo de la cadena,

a fin de monitorear la implementación del programa y evaluar los resulta- Concepto clave
dos. Como se ha dicho, es útil contar con la participación de agentes Los buenos
interesados del programa, tanto de los equipos de políticas como de los de indicadores son
investigación, para seleccionar estos indicadores y asegurar que son buenas EMARF (específicos,
medibles, atribuibles,
medidas del desempeño del programa. La regla general indica que los crite- realistas y
rios para asegurar que los indicadores utilizados son buenas medidas se focalizados).
resumen en el acrónimo EMARF. Los indicadores deberían ser:
• Específicos: para medir la información requerida de la forma más rigu-
rosa posible.
• Medibles: para garantizar que la información se puede obtener
fácilmente.
• Atribuibles: para asegurar que cada medida está relacionada con los
logros del proyecto.
• Realistas: para garantizar que los datos se pueden obtener de manera
oportuna, con una frecuencia y un costo razonables.
• Focalizados: en la población objetivo.
Al elegir los indicadores, es importante identificarlos a lo largo de toda la

cadena de resultados, y no solo en el nivel de los resultados, de modo que
puedan seguir la lógica causal de cualquier resultado observado del pro-
grama. En las evaluaciones de implementación que se centran en probar dos
o más alternativas de diseño, los resultados de interés pueden producirse
antes en la cadena de resultados, como un resultado adelantado o como
resultado de una fase temprana. Aun cuando el interés solo esté puesto en
las medidas de resultados para la evaluación, es sustancial realizar un segui-
miento de los indicadores de implementación, de tal manera que se pueda
determinar si las intervenciones se han llevado a cabo como estaban proyec-
tadas, si han sido recibidas por los beneficiarios previstos y si han llegado a
tiempo. Si no se identifican estos indicadores en toda la cadena de resulta-
dos se corre el riesgo de que la evaluación de impacto sea como una “caja
negra” que podrá determinar si los resultados previstos se materializaron o
no, pero no será capaz de explicar por qué.
Lista de verificación: datos para los indicadores
Como lista de verificación final, una vez que se han seleccionado los indica-
dores es útil pensar en las disposiciones para producir los datos con el fin de
medir los indicadores. En el capítulo 4 se presenta un debate exhaustivo

sobre dónde conseguir los datos para la evaluación. Esta lista de verificación
(adaptada de PNUD, 2009) abarca las disposiciones prácticas necesarias
para asegurar que es posible producir todos los indicadores de manera fiable
y oportuna:
 ¿Se han especificado con claridad los indicadores (productos y resulta-
dos)? Estos provienen de las preguntas clave de la evaluación y deberían
ser consistentes con los documentos de diseño del programa y con la
cadena de resultados.
 ¿Los indicadores son EMARF? Específicos, medibles, atribuibles, realis-
tas y focalizados.
 ¿Cuál es la fuente de los datos de cada indicador? Es necesario definir con
claridad la fuente de los datos, como una encuesta, un estudio o una reu-
nión de las partes interesadas.
 ¿Con qué frecuencia se recopilarán los datos? Es preciso incluir un
calendario.
 ¿Quién es el responsable de recopilar los datos? Se debe especificar quién
es responsable de organizar la recopilación de datos, verificar la calidad y
la fuente de los datos y asegurar el cumplimiento de las normas éticas.
 ¿Quién es responsable del análisis y de los informes? Hay que fijar la fre-
cuencia de los análisis, el método de análisis y el responsable de los
informes.
 ¿Qué recursos se necesitan para producir los datos? Es fundamental que
los recursos requeridos sean claros y que estén destinados a producir los
datos, que a menudo es la parte más cara de una evaluación si se recopi-
lan datos primarios.
 ¿La documentación es adecuada? Es útil diseñar planes para documentar
los datos, incluir la utilización de un registro y asegurar el anonimato.
 ¿Qué riesgos implica? Al realizar el monitoreo planificado y las activida-
des de evaluación es preciso considerar los riesgos y los supuestos, así
como la manera en que pueden influir en la puntualidad y la calidad de
los datos y de los indicadores.
• Para obtener material complementario de este capítulo y para conseguir
hipervínculos a recursos adicionales se recomienda consultar el sitio de la
Evaluación de Impacto en la Práctica (http://www.worldbank.org/ieinpractice).

• El Módulo 1 del World Bank’s Impact Evaluation Toolkit (http://www
.worldbank.org/health/impactevaluationtoolkit) ofrece un gráfico de la
teoría del cambio, una plantilla de cadena de resultados y ejemplos de
indicadores para financiamiento basado en resultados.
• L. Morra Imas y R. Rist (2009) brindan un buen estudio de las teorías del
cambio en “The Road to Results: Designing and Conducting Effective
Development Evaluations.” Washington, D.C.: Banco Mundial.
• Para un debate sobre cómo seleccionar los indicadores de desempeño, véanse:
➢ L. Morra Imas y R. Rist (2009), “The Road to Results: Designing and
Conducting Effective Development Evaluations.” Washington, D.C.:
Banco Mundial.
➢ J. Kusek y R. Rist (2004), “Ten Steps to a Results-Based Monitoring and
Evaluation System.” Washington, D.C.: Banco Mundial.
Cattaneo, M., S. Galiani, P. Gertler, S. Martinez y R. Titiunik. 2009. “Housing,
Health and Happiness.” American Economic Journal: Economic Policy 1 (1):
75–105.
Morra Imas, L. y R. Rist. 2009. “The Road to Results: Designing and Conducting
Effective Development Evaluations.” Washington, D.C.: Banco Mundial.
Kusek, J. y R. Rist. 2004. “Ten Steps to a Results-Based Monitoring and Evaluation
System.” Washington, D.C.: Banco Mundial.
Ludwig, J., J. Kling y S. Mullainathan. 2011. “Mechanism Experiments and Policy
Evaluations.” Journal of Economic Perspectives 25 (3): 17–38.
PNUD (Programa de las Naciones Unidas para el Desarrollo). 2009. Handbook on
Planning, Monitoring and Evaluating for Development Results. Nueva York:
PNUD.
University of Wisconsin - Extension. 2010. “Enhancing Program Performance with
Logic Models.” Curso en línea. Disponible en http://www.uwex.edu/ces/pdande
/evaluation/evallogicmodel.html.
Vermeersch, C., E. Rothenbühler y J. Sturdy. 2012. “Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child
Health.” Washington, D.C.: Banco Mundial. Disponible en www.worldbank.org
/health/impactevaluationtoolkit.

Segunda parte
CÓMO EVALUAR
La segunda parte de este libro explica cómo funcionan las evaluaciones de

impacto, a qué preguntas responden, qué métodos están disponibles para lle-
varlas a cabo y cuáles son las ventajas y las desventajas de cada uno de ellos.
El enfoque de la evaluación de impacto propuesto en este libro aboga por la
selección del método más riguroso que sea compatible con las característi-
cas operativas de un programa. El menú de opciones para una evaluación de
impacto incluye la asignación aleatoria, las variables instrumentales, el diseño
de regresión discontinua, las diferencias en diferencias y el pareamiento. Todos
estos métodos comparten el objetivo común de construir grupos de compara-
ción válidos que permitan estimar los verdaderos impactos de un programa.
El capítulo 3 introduce el concepto del contrafactual como piedra angular de la

evaluación de impacto mediante una explicación de las propiedades que debe
tener la estimación del contrafactual y ejemplos de estimaciones inválidas o
falsas del contrafactual. Del capítulo 4 al 8 se aborda cada una de las metodo-
logías para una evaluación de impacto: el capítulo 4 trata la asignación aleato-
ria; el 5, las variables instrumentales; el 6, el diseño de regresión discontinua;
el 7, las diferencias en diferencias, y el 8, el pareamiento. En estos capítulos se
analiza cómo y por qué cada método puede producir una estimación válida del
contrafactual, en qué contexto de las políticas públicas es posible implementar-
los y cuáles son las principales limitaciones de cada uno. Asimismo, se ilustra
el uso de los diferentes métodos con ejemplos específicos del mundo real de
las evaluaciones de impacto que los han utilizado y con el estudio de caso del
Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en inglés,
Health Insurance Subsidy Program) que se presentó en el capítulo 2. El capí-
tulo 9 avanza sobre cómo abordar los problemas que pueden surgir durante la
implementación, y reconoce que las evaluaciones de impacto no suelen ejecu-
tarse siguiendo el diseño de un modo exacto. En este contexto, se consideran
las dificultades habituales, entre ellas el cumplimiento imperfecto, los efectos
secundarios y el desgaste de la muestra, y se ofrece orientación acerca de
cómo afrontar estos problemas. El capítulo 10 concluye esta segunda parte del
libro con una guía de las evaluaciones de programas multifacéticos, en especial
aquellos con distintos niveles de tratamiento y múltiples brazos de tratamiento.
A lo largo de la segunda parte, el libro brinda la oportunidad de aplicar métodos

y poner a prueba la comprensión a partir del estudio de caso del HISP. Como se
recordará, la pregunta clave de la evaluación para los responsables de la polí-
tica del HISP es: ¿qué impacto tiene este programa en los gastos directos en
atención sanitaria de los hogares pobres? Se utilizará la base de datos del HISP
para ilustrar cada método de evaluación e intentar responder esta pregunta.
Siendo que ya se han reunido adecuadamente los datos, de modo que se han
eliminado todos los problemas relacionados con estos datos, el libro proporcio-
nará los resultados del análisis, que deberán ser interpretados. En ese sentido,
la tarea del lector será determinar por qué la estimación del impacto del HISP
cambia con cada método y decidir qué resultados son más fiables para justifi-
car una decisión a favor o en contra de la ampliación del HISP. Las soluciones
a las preguntas se hallan en el sitio web de evaluación de impacto en la prác-
tica (www.worldbank.org/ieinpractice), donde, además, se encuentra la base
de datos, el código de análisis en el software Stata™ y un manual técnico que
proporciona un tratamiento más formal de los datos.
La parte 3 comienza indicando cómo usar las reglas de operación del programa,
esto es: los recursos disponibles de un programa, los criterios para la selección
de beneficiarios, y el plazo de implementación, como base para seleccionar
un método de evaluación de impacto. Allí se presenta un marco sencillo para
determinar cuál de las metodologías de evaluación de impacto expuestas en la
parte 2 es más conveniente para un determinado programa, en función de sus
normas operativas.
CAPÍTULO 3
Inferencia causal y
contrafactuales
Inferencia causal
En las evaluaciones de impacto precisas y fiables existen dos conceptos

esenciales: la inferencia causal y los contrafactuales.
Muchas preguntas de política económica tienen que ver con relaciones
de causa y efecto: ¿la formación de los profesores mejora las puntuaciones
de los alumnos en las pruebas? ¿Los programas de transferencias condicio-
nadas consiguen mejores resultados en la salud de los niños? ¿Los progra-
mas de formación profesional aumentan los ingresos de quienes los han
cursado?
Las evaluaciones de impacto pretenden responder estas preguntas de
causa y efecto con precisión. Evaluar el impacto de un programa en un con-
junto de resultados equivale a evaluar el efecto causal del programa en esos
resultados.1
Concepto clave
A pesar de que las preguntas de causa y efecto son habituales, contestar-
Las evaluaciones de
las no es un asunto sencillo. En el contexto de un programa de formación
impacto establecen
profesional, por ejemplo, la sola observación de que los ingresos de una per- hasta qué punto un
sona que ha recibido formación aumentan después de que ha completado programa –y solo ese
ese programa no basta para establecer la causalidad. Tal vez los ingresos de programa– provocó un
esa persona se habrían incrementado aunque no hubiera sido objeto de la cambio en un
resultado.
formación, sino como consecuencia de sus esfuerzos, de las condiciones
53
cambiantes del mercado laboral o de muchos otros factores que influyen en
los ingresos. Las evaluaciones de impacto ayudan a superar el problema de
atribuir causalidad pues determinan, empíricamente, en qué medida un
programa concreto –y solo ese programa– contribuye a cambiar un resul-
tado. Para establecer causalidad entre un programa y un resultado se
emplean métodos de evaluación de impacto a fin de descartar la posibilidad
de que cualquier factor distinto del programa de interés explique el impacto
observado.
La respuesta a la pregunta básica de la evaluación de impacto –cuál es el
impacto o efecto causal de un programa (P) en un resultado de interés (Y)–
se obtiene mediante la fórmula básica de la evaluación de impacto:
 = (Y | P = 1) − (Y | P = 0)
Según esta fórmula, el impacto causal () de un programa (P) en un resul-

tado (Y) es la diferencia entre el resultado (Y) con el programa (es decir,
cuando P = 1) y el mismo resultado (Y) sin el programa (cuando P = 0).
Por ejemplo, si P representa un programa de formación profesional e Y
simboliza los ingresos, el impacto causal de un programa de formación pro-
fesional () es la diferencia entre los ingresos de una persona (Y) después
de participar en el programa de formación profesional (es decir, cuando
P = 1) y los ingresos de la misma persona (Y) en el mismo momento en el
tiempo, si no hubiera participado en el programa (cuando P = 0). Dicho de
otro modo, se trata de medir el ingreso en el mismo momento en el tiempo
para la misma unidad de observación (en este caso, una persona) pero en
dos realidades diferentes. Si esto fuera posible, se observaría cuál sería el
ingreso de ese mismo individuo en el mismo momento en el tiempo tanto
con el programa como sin él, de modo que la única explicación posible de
cualquier diferencia en los ingresos de esa persona sería el programa.
Al comparar al mismo individuo consigo mismo en el mismo momento se
conseguiría eliminar cualquier factor externo que también pudiera expli-
car la diferencia de los ingresos. En ese caso, sería posible confiar en que la
relación entre el programa de formación profesional y el cambio en los
ingresos es causal.
La fórmula básica de la evaluación de impacto es válida para cualquier
unidad analizada, ya sea una persona, un hogar, una comunidad, una
empresa, un colegio, un hospital u otra unidad de observación que pueda
beneficiarse del programa o verse afectada por él. La fórmula también es
válida para cualquier resultado (Y) relacionado con el programa en cuestión.
Una vez que se han medido los dos componentes clave de esta fórmula –el
resultado (Y) con el programa y sin él–, es posible responder cualquier pre-
gunta acerca del impacto del programa.

El contrafactual
Como ya se señaló, es posible pensar en el impacto () de un programa como

la diferencia en los resultados (Y) para la misma unidad (persona, hogar,
comunidad, etc.) cuando ha participado en el programa y cuando no lo ha
hecho. Sin embargo, es imposible medir al mismo sujeto en dos realidades
diferentes al mismo tiempo. En cualquier momento del tiempo, un sujeto
habrá participado en el programa o no lo habrá hecho. No se lo puede obser-
var simultáneamente en dos realidades distintas (es decir, con el programa
y sin él). Esto se denomina problema contrafactual: ¿cómo medir lo que Concepto clave
habría ocurrido si hubieran prevalecido las otras circunstancias? Aunque se El contrafactual es lo
puede observar y medir el resultado (Y) para un participante del programa que habría ocurrido
(Y | P = 1), no hay datos para establecer cuál habría sido su resultado en –cuál habría sido el
resultado (Y ) para un
ausencia del programa (Y | P = 0). En la fórmula básica de la evaluación de
participante del
impacto, el término (Y | P = 0) representa el contrafactual, lo cual se puede programa– en ausencia
expresar como ¿cuál habría sido el resultado si una persona no hubiera par- del programa (P ).
ticipado en el programa?
Por ejemplo, si el “señor Desafortunado” toma una píldora y muere cinco
días después, el solo hecho de que el señor Desafortunado haya muerto des-
pués de tomar la píldora no permite concluir que la píldora haya sido la
causa de su muerte. Quizá él estaba muy enfermo cuando tomó la píldora y
fue la enfermedad la que provocó su muerte en lugar de la píldora. Para infe-
rir la causalidad habrá que descartar todos los demás factores potenciales
capaces de haber influido en el resultado en cuestión. En este sencillo ejem-
plo, para saber si la píldora causó la muerte del señor Desafortunado, un eva-
luador tendría que establecer qué le habría ocurrido al señor Desafortunado
si no hubiera tomado la píldora. Como el señor Desafortunado tomó la píl-
dora, no es posible observar de forma directa qué habría ocurrido si no lo
hubiera hecho. Lo que le habría ocurrido si no hubiera tomado la píldora es
el contrafactual. Para definir el impacto de la píldora, el principal reto del
evaluador consiste en determinar qué aspecto tiene el estado contrafactual
de la realidad para el señor Desafortunado (véase el recuadro 3.1).
Cuando se lleva a cabo una evaluación de impacto, es relativamente fácil
obtener el primer término de la fórmula básica (Y | P = 1) –el resultado con
un programa, también conocido como el resultado bajo tratamiento–, ya que Concepto clave
basta con medir el resultado de interés para el participante del programa. Como no es posible
Sin embargo, no es posible observar de forma directa el segundo término de observar directamente
la fórmula (Y | P = 0) para el participante. Es preciso obtener esta informa- el contrafactual, es
preciso estimarlo.
ción estimando el contrafactual.
Para entender este concepto clave de estimación del contrafactual es útil
recurrir a otro caso hipotético. La solución del problema contrafactual sería
Inferencia causal y contrafactuales 55

Recuadro 3.1: El problema del contrafactual: la “señorita Única” y
el programa de transferencias condicionadas
La “señorita Única” es una recién nacida condicionadas y sin él: su familia cumple los
cuya madre percibe una asignación moneta- requisitos (chequeos, vacunación, seguimiento
ria mensual siempre que la niña sea some- del crecimiento) y recibe la transferencia condi-
tida a chequeos regulares en el centro de cionada o no lo hace. En otras palabras, no hay
salud local, reciba las vacunas y se chequee forma de observar cuál es el contrafactual. Como
su crecimiento. Según el gobierno, la trans- la madre de la señorita Única cumplió los requisi-
ferencia condicionada motivará a la madre tos y recibió la transferencia condicionada, no es
de la señorita Única a acudir a los servicios factible saber qué altura tendría la señorita Única
de salud que requiere el programa y contri- si su madre no hubiera recibido la transferencia
buirá al crecimiento normal y saludable de la condicionada.
niña. Para realizar una evaluación de impacto Será difícil encontrar una comparación
de la transferencia condicionada, el gobierno adecuada para la señorita Única porque,
elige la altura como indicador de resultados como su nombre indica, es única. Sus ante-
de la salud en el largo plazo. cedentes socioeconómicos, sus atributos
Idealmente, para evaluar el impacto del genéticos y sus características personales y
programa, habría que medir la altura de la del hogar no pueden ser hallados en nin-
señorita Única a los 3 años, cuando su guna otra persona. Si se compara la seño-
madre recibió la transferencia condicionada rita Única con alguien que no participó en el
y también cuando su madre no recibió dicha programa –por ejemplo, el señor Inimitable–,
transferencia. Luego habría que comparar la comparación tal vez resulte inadecuada:
las dos alturas para establecer el impacto. Si la señorita Única puede ser exactamente
fuera posible comparar la altura de la seño- idéntica al señor Inimitable. Quizá la seño-
rita Única a los 3 años bajo el programa con rita Única y el señor Inimitable no tienen el
la altura de la señorita Única a los 3 años sin mismo aspecto, no viven en el mismo lugar,
el programa se sabría que cualquier diferen- no tienen los mismos padres y no midieron
cia en la altura habría sido efecto solo del lo mismo cuando nacieron. Por lo tanto, si
programa de transferencias condicionadas. se observa que el señor Inimitable es más
Como todo lo demás relativo a la señorita bajo que la señorita Única a los 3 años no
Única sería igual, no habría otras caracterís- será posible saber si la diferencia se debe al
ticas que explicaran la diferencia de altura. programa de transferencias condicionadas
Sin embargo, es imposible observar a la o a alguna de las muchas otras diferencias
señorita Única con el programa de transferencias entre los dos niños.
posible si el evaluador pudiera encontrar un “clon perfecto” de un partici-

pante en el programa (véase el gráfico 3.1). Por ejemplo, si el señor Fulanito
comienza a recibir US$12 como dinero de bolsillo y lo que se busca es medir
el impacto de este tratamiento en su consumo de caramelos, la existencia de
un clon perfecto del señor Fulanito haría la evaluación muy fácil, pues se
Gráfico 3.1 El clon perfecto
Beneficiario/a Clon
6 caramelos 4 caramelos
Impacto = 6 – 4 = 2 caramelos
podría comparar el número de caramelos que come el señor Fulanito

(por ejemplo, seis) cuando recibe el dinero, con el número de caramelos
(por ejemplo, cuatro) que come su clon, que no recibe dinero. En este caso,
el impacto del dinero de bolsillo sería de dos caramelos, es decir, la diferen-
cia entre el número de caramelos consumidos bajo tratamiento (seis) y el
número de caramelos consumidos sin tratamiento (cuatro). En realidad,
está claro que es imposible hallar clones perfectos, y que incluso entre
gemelos genéticamente idénticos hay diferencias importantes.
La estimación del contrafactual
La clave para estimar el contrafactual para los participantes del programa

consiste en desplazarse del nivel individual o de la persona al nivel del
grupo. A pesar de que no existe un clon perfecto de una persona única, es
posible contar con propiedades estadísticas para generar dos grupos de
personas que, si su número es lo bastante alto, sean indistinguibles una de
otra desde el punto de vista estadístico en el nivel del grupo. El grupo que
participa en el programa se denomina grupo de tratamiento, y su resultado
es (Y | P = 1) después de que ha participado en el programa. El grupo de com-
paración estadísticamente idéntico (a veces llamado “grupo de control”) es
el grupo que no es objeto del programa y permite estimar el resultado con-
trafactual (Y | P = 0): es decir, el resultado que se habría obtenido en el grupo
de tratamiento si no hubiera recibido el programa.

Concepto clave Por lo tanto, en la práctica el reto de una evaluación de impacto es definir
Sin un grupo de un grupo de tratamiento y un grupo de comparación que sean estadística-
comparación que mente idénticos, en promedio, en ausencia del programa. Si los dos grupos
produzca una son idénticos (estadísticamente), con la única excepción de que un grupo
estimación precisa del
contrafactual, no se
participa en el programa y el otro no, es posible estar seguros de que cual-
puede establecer el quier diferencia en los resultados tendría que deberse al programa.
verdadero impacto de Encontrar esos grupos de comparación es la piedra angular de cualquier
un programa. evaluación de impacto, al margen del tipo de programa que se evalúe. En
pocas palabras, sin un grupo de comparación que produzca una estimación
precisa del contrafactual, no se puede establecer el verdadero impacto de un
programa.
En ese sentido, el principal desafío para identificar los impactos es crear
un grupo de comparación válido que tenga las mismas características que el
grupo de tratamiento en ausencia del programa. Concretamente, los grupos
de tratamiento y de comparación deben ser iguales en al menos tres
aspectos.
En primer lugar, las características promedio del grupo de tratamiento y
del grupo de comparación deben ser idénticas en ausencia del programa.2
Aunque no es necesario que las unidades individuales en el grupo de trata-
miento tengan clones perfectos en el grupo de comparación, en promedio
las características de los grupos de tratamiento y de comparación deberían
ser las mismas. Por ejemplo, la edad promedio de las personas en el grupo de
tratamiento debería ser la misma que en el grupo de comparación.
En segundo lugar, el tratamiento no tendría que afectar al grupo de
comparación de forma directa ni indirecta. En el caso del señor Fulanito y
el dinero de bolsillo, el grupo de tratamiento no debería transferir recur-
sos al grupo de comparación (efecto directo) ni influir en el precio de los
caramelos en los mercados locales (efecto indirecto). Por ejemplo, si lo
que se busca es aislar el impacto del dinero de bolsillo en el consumo de
caramelos, al grupo de tratamiento no se le deberían ofrecer más visitas
Concepto clave
a la tienda de caramelos que al grupo de comparación; de otra manera,
Un grupo de compara-
no se podría distinguir si el consumo adicional de caramelos es conse-
ción válido (1) tiene las
mismas características, cuencia del dinero de bolsillo o del mayor número de visitas a la tienda de
en promedio, que el caramelos.
grupo de tratamiento en En tercer lugar, los resultados de las personas en el grupo de control
ausencia del programa; deberían cambiar de la misma manera que los resultados en el grupo de tra-
(2) no es afectado por el
tamiento, si ambos grupos son objeto del tratamiento (o no). En este sentido,
programa; y (3)
reaccionaría al los grupos de tratamiento y de comparación tendrían que reaccionar al
programa de la misma programa de igual modo. Por ejemplo, si los ingresos de las personas del
manera que el grupo de grupo de tratamiento aumentaran en US$100 gracias al programa de forma-
tratamiento, si fuera ción, los ingresos de las personas en el grupo de comparación también ten-
objeto del programa. drían que subir US$100 si hubieran sido objeto de la formación.
Si se cumplen estas tres condiciones, solamente la existencia del pro-
grama de interés explicará cualquier diferencia en el resultado (Y) entre los
dos grupos. Esto obedece a que la única diferencia entre los grupos de trata-
miento y los de comparación es que los miembros del grupo de tratamiento
recibieron el programa, mientras que los del grupo de comparación no lo
recibieron. Cuando la diferencia en el resultado se puede atribuir total-
mente al programa, se ha identificado el impacto causal del programa.
En el caso del señor Fulanito se observó que estimar el impacto del dinero
de bolsillo en su consumo de caramelos exigía la tarea impracticable de
encontrar el clon perfecto del señor Fulanito. En vez de analizar el impacto
en un solo individuo, es más realista evaluar el impacto promedio en un
grupo de individuos (véase el gráfico 3.2). En ese sentido, si se pudiera iden-
tificar otro grupo de individuos que comparten el mismo promedio de edad,
composición por sexo, educación, preferencia por los caramelos, etc., con la
salvedad de que no recibe el dinero de bolsillo adicional, sería posible esti-
mar el impacto del dinero de bolsillo, pues este estaría conformado por la Concepto clave
diferencia entre el consumo promedio de caramelos en ambos grupos. Por lo Cuando el grupo de
tanto, si el grupo de tratamiento consume una media de seis caramelos por comparación no estima
con precisión el
persona, mientras que el grupo de comparación consume una media de cua-
verdadero contrafac-
tro, el impacto promedio del dinero de bolsillo adicional en el consumo de tual, el impacto
caramelos sería de dos caramelos. estimado del programa
Después de definir un grupo de comparación válido, es importante consi- no es válido. En
derar qué ocurriría si la decisión fuera seguir adelante con una evaluación términos estadísticos
sin haber hallado ese grupo. Es evidente que un grupo de comparación no es “sesgado”.
Gráfico 3.2 Un grupo de comparación válido
Tratamiento Comparación
Media Y = 6 caramelos Media Y = 4 caramelos
Impacto = 6 – 4 = 2 caramelos

válido difiere del grupo de tratamiento de alguna manera distinta de la
ausencia de tratamiento. Debido a esas otras diferencias, la estimación de
impacto puede ser no válida o, en términos estadísticos, puede ser sesgada:
en ese caso la evaluación de impacto no estimará el verdadero impacto del
programa, sino el efecto del programa mezclado con esas otras diferencias
existentes entre los grupos.
Dos estimaciones falsas del contrafactual
En lo que queda de la segunda parte de este libro se abordarán los diversos

métodos disponibles para construir grupos de comparación válidos que
permitirán estimar el contrafactual. Sin embargo, antes resulta útil analizar
dos métodos de uso habitual, aunque sumamente riesgosos, para construir
grupos de comparación que a menudo conducen a estimaciones inadecua-
das (“falsas”) del contrafactual:
 Las comparaciones antes-después (también conocidas como comparacio-
nes pre-post o reflexivas): cotejan los resultados del mismo grupo antes y
después de participar en un programa.
 Las comparaciones de inscritos y no inscritos (o autoseleccionados): com-
paran los resultados de un grupo que elige participar en un programa con
otros de un grupo que elige no participar.
Contrafactual falso 1: comparación entre resultados antes y

después de un programa
Una comparación antes-después intenta establecer el impacto de un

programa a partir de un seguimiento de los cambios en los resultados en los
participantes del programa a lo largo del tiempo. De acuerdo con la fórmula
básica de la evaluación de impacto, el resultado para el grupo de tratamiento
(Y | P = 1) es, sin duda, el resultado después de participar en el programa. Sin
embargo, las comparaciones antes-después consideran el contrafactual esti-
mado (Y | P = 0) como el resultado para el grupo de tratamiento antes de
que comience la intervención. Básicamente, esta comparación supone que si
el programa no hubiera existido, el resultado (Y ) para los participantes del
programa habría sido igual a su situación antes del programa. Lo cierto es
que en la mayoría de los programas implementados durante meses o años
este supuesto no puede sostenerse.
A modo de ejemplo se aborda la evaluación de un programa de microfi-
nanzas para agricultores pobres. El programa ofrece micropréstamos a
los agricultores, lo que les permite comprar fertilizantes y aumentar su
producción de arroz. El año previo al inicio del programa, los agricultores
cosecharon un promedio de 1.000 kilos de arroz por hectárea (el punto B
en el gráfico 3.3). Un año después del lanzamiento del sistema de microfi-
nanzas, la producción de arroz subió a 1.100 kilos por hectárea (el punto A
en el gráfico 3.3). Si se tratara de evaluar el impacto sobre la base de una
comparación antes-después, se utilizaría el resultado de antes del pro-
grama como una estimación del contrafactual. Al aplicar la misma fór-
mula básica de la evaluación de impacto, se llegaría a la conclusión de que
el programa ha incrementado la producción de arroz en 100 kilos por
hectárea (A-B).
Ahora bien, si las lluvias fueron normales en el año previo al lanza-
miento del programa y luego, durante el año en que se implementó el pro-
grama, se produjo una sequía, la producción promedio de los agricultores
sin el sistema de micropréstamos será probablemente menor que B, y se
situará, por ejemplo, en el nivel D debido a la sequía. En ese caso, el verda-
dero impacto del programa sería A-D, que es mayor que los 100 kilos esti-
mados a partir de la comparación antes-después. En cambio, si las lluvias
hubieran mejorado entre los dos años, el contrafactual de la producción de
arroz podría haberse situado en el nivel C. Entonces el verdadero impacto
Gráfico 3.3 Estimaciones antes-después de un programa de microfinanzas
1.100 A
Producción de arroz (kg por ha)
Cambio observado
Contrafactual C C?  = 100
Contrafactual B
1.000 B
Contrafactual D
D?
Año 0 Año 1
Nota:  = Cambio en la cosecha de arroz (kg); ha = hectáreas; kg = kilogramos.

del programa habría sido inferior a 100 kilos. En otras palabras, si los aná-
lisis de impacto no pueden dar cuenta de las lluvias y de todos los demás
factores capaces de influir en la producción de arroz a lo largo del tiempo,
es imposible calcular el verdadero impacto del programa mediante una
comparación antes-después.
En el ejemplo anterior de las microfinanzas, las lluvias constituyen uno
de varios factores externos que pueden influir en el resultado de interés del
programa (la producción de arroz) durante su vigencia. De la misma manera,
muchos resultados que los programas de desarrollo pretenden mejorar,
como los ingresos, la productividad, la salud o la educación, están afectados
por un conjunto de factores en el transcurso del tiempo. Por ese motivo, el
resultado de referencia casi nunca es una buena estimación del contrafac-
tual y se lo considera un contrafactual “falso”.
Evaluación de impacto del HISP: una comparación de

resultados antes-después
Como se recordará, el HISP es un programa nuevo en el país, que subsi-

dia los seguros de salud en los hogares rurales pobres, y este seguro cubre
los gastos relacionados con la atención de salud y los medicamentos para
quienes se inscriben en él. El objetivo del HISP es reducir lo que los
hogares pobres gastan en atención primaria de salud y medicamentos
y, eventualmente, mejorar los resultados de salud. Aunque se podrían
contemplar numerosos indicadores de resultados para la evaluación del
programa, al gobierno le interesa, en particular, el análisis de los efectos
del HISP en los gastos directos en salud per cápita anuales (de ahora en
adelante denominados “gasto en salud”).
Si el HISP se ampliara a todo el país representaría un alto porcentaje
del presupuesto nacional, hasta el 1,5% del producto interno bruto (PIB),
según algunas estimaciones. Además, hay otras complejidades adminis-
trativas y logísticas importantes que intervienen en la gestión de un
programa de estas características. Por eso, en los niveles más altos del
gobierno se ha tomado la decisión de introducir el HISP primero como
programa piloto y, más tarde, según los resultados de la fase inicial,
aumentar su escala de manera progresiva a lo largo del tiempo. Sobre la
base de los resultados de los análisis financieros y de costo-beneficio, la
presidenta y su gabinete han anunciado que para que el HISP sea viable y
se pueda extender a todo el país es preciso que los gastos en salud per
cápita anuales de los hogares rurales pobres disminuyan en al menos
US$9 en promedio, en comparación con lo que habrían gastado en ausen-
cia del programa, y se debe lograr esta meta en un plazo de dos años.

Finalmente, durante la fase piloto inicial el HISP se implementa en
100 pueblos rurales. Justo antes del comienzo del programa, el gobierno
contrata una empresa de encuestas para que realice un sondeo de línea
de base en los 4.959 hogares de estos pueblos. La encuesta recopila infor-
mación detallada sobre cada hogar, que incluye su composición demo-
gráfica, sus activos, su acceso a los servicios sanitarios y su gasto en salud
durante el año anterior. Poco después de la encuesta de línea de base, el
HISP llega a los 100 pueblos piloto con un gran despliegue de publicidad,
que abarca actividades comunitarias y otras campañas promocionales
para animar a los pobladores a inscribirse.
De los 4.959 hogares que contiene la muestra de línea de base, un total
de 2.907 se inscriben en el HISP y el programa funciona con éxito
durante los dos años siguientes. Todas las clínicas y farmacias que sirven
los 100 pueblos aceptan a los pacientes con el sistema de seguro y las
encuestas muestran que la mayoría de los hogares inscritos expresa
satisfacción con el programa. Al final del período piloto de dos años se
recopila una segunda ronda de datos de evaluación en la misma muestra
de 4.959 hogares.3
La presidenta y el ministro de Salud le han encargado a un equipo que
supervise la evaluación de impacto del HISP y este debe recomendarle al
gobierno si es conveniente ampliar el programa al nivel nacional o no. La
pregunta de evaluación de impacto de interés es: ¿cuál es el efecto del
Programa de Subsidios de Seguros de Salud en los gastos directos en
salud de los hogares pobres? Es preciso recordar que hay mucho en juego.
Si se llega a la conclusión de que el HISP reduce los gastos en salud en al
menos US$10, se extenderá a todo el país. Si el programa no alcanza ese
objetivo, la decisión será que no se amplíe.
El primer consultor “experto” señala que para estimar el impacto del
HISP hay que calcular el cambio en los gastos en salud a lo largo del
tiempo en los hogares que se inscribieron. El consultor sostiene que
debido a que el HISP cubre todos los gastos de salud, cualquier reducción
de los gastos durante la vigencia del programa debe ser atribuida al efecto
del HISP. A partir del subconjunto de los hogares inscritos, el experto
estima los gastos promedio en salud antes de la implementación del
programa y luego de la ejecución del mismo, dos años después. En otras
palabras, lleva a cabo una comparación antes-después (los resultados se
recogen en el cuadro 3.1) Se observa que el grupo de tratamiento redujo
sus gastos directos en salud en US$6,65, al pasar de US$14,49 antes de la
introducción del HISP a US$7,84 dos años más tarde. Como indica el
valor t-estadístico, la diferencia entre gastos en salud antes y después
del programa es estadísticamente significativa.4 Esto significa que se ha

Cuadro 3.1 Evaluación del HISP según comparación antes-después
Después Antes Diferencia t-estadístico

Gasto en salud de los
hogares (en US$) 7,84 14,49 −6,65** −39,76
** Significativo al nivel del 1%.
Cuadro 3.2 Impacto del HISP según comparación antes-después (análisis

de regresión)
Regresión lineal
Regresión lineal multivariante
Impacto estimado en el
gasto en salud de los −6,65** −6,71**
hogares (en US$) (0,23) (0,23)
Nota: Los errores estándar están entre paréntesis.

encontrado evidencia sólida contra quienes sostienen que la verdadera

diferencia entre los gastos antes y después de la intervención es cero.
Aunque la comparación antes-después es para el mismo grupo de
hogares, es preciso establecer si otras circunstancias cambiaron en estos
hogares a lo largo de los últimos dos años, influyendo en sus gastos en
salud. Por ejemplo, hay nuevos medicamentos que se encuentran dispo-
nibles desde hace poco tiempo. Además, la reducción de los gastos en
salud podría haber sido provocada por la crisis financiera que el país ha
vivido recientemente. Para abordar algunas de estas cuestiones, el con-
sultor lleva a cabo un análisis de regresión más sofisticado que intentará
controlar por estos otros factores.
El análisis de regresión emplea las estadísticas para analizar las rela-
ciones entre una variable dependiente (la variable que será explicada) y
variables explicativas (los resultados se recogen en el cuadro 3.2). Una
regresión lineal es la forma más sencilla de hacerlo: los gastos en salud
son la variable dependiente y solo hay una variable explicativa, un indica-
dor binario (0-1) que asume el valor 0 si la observación es de línea de base
y 1 si la observación corresponde al seguimiento.
En tanto, una regresión lineal multivariante añade variables explicati-
vas para controlar por, o mantener constantes, otras características que se
observan para los hogares en la muestra, que incluyen indicadores
de riqueza (activos), composición del hogar, etcétera.5

Se observa que el resultado de la regresión lineal es equivalente a la
simple diferencia antes y después en los gastos promedio en salud que
muestra el cuadro 3.1 (una reducción de US$6,65 en los gastos en salud).
Una vez que se utiliza una regresión lineal multivariante para controlar
por otros factores disponibles en los datos, se vuelve a obtener un resul-
tado similar: una disminución de US$6,71 en los gastos en salud.
Pregunta HISP 1
A. ¿La comparación antes-después controla por todos los factores que

influyen en los gastos en salud a lo largo del tiempo?
B. Sobre la base de los resultados producidos por el análisis antes-
después, ¿debería ampliarse el HISP a nivel nacional?
Contrafactual falso 2: comparación entre los grupos de inscritos y

no inscritos (autoseleccionados)
La comparación entre un grupo de individuos que se inscriben voluntaria-

mente en un programa y un grupo de individuos que elige no participar es
otro enfoque riesgoso de la evaluación de impacto. Un grupo de compara-
ción que se autoselecciona para no participar en un programa será otro
contrafactual falso. La selección se produce cuando la participación en el
programa se basa en las preferencias, decisiones o características no obser-
vables de los participantes potenciales.
A modo de ejemplo se puede pensar en un programa de orientación pro-
fesional para los jóvenes desempleados. Dos años después de su lanza-
miento, una evaluación intenta estimar su impacto en los ingresos a partir
de la comparación de los ingresos promedio de un grupo de jóvenes que
decidieron inscribirse en el programa con los de un grupo de jóvenes que, a
pesar de ser elegibles, decidieron no inscribirse. Si los resultados demostra-
ran que los jóvenes que eligieron inscribirse en el programa ganan el
doble de los que decidieron no hacerlo, ¿cómo debería interpretarse este
hallazgo? En este caso, el contrafactual se estima sobre la base de los ingre-
sos de quienes eligieron no inscribirse en el programa. Sin embargo, es pro-
bable que los dos grupos sean, en esencia, diferentes. Aquellos individuos
que decidieron participar pueden estar muy motivados para mejorar sus
vidas y quizá esperen un retorno alto de la formación. Mientras que los que
decidieron no inscribirse tal vez son jóvenes desanimados que no esperan
beneficiarse de este tipo de programas. Es factible que estos dos grupos

obtengan resultados bastante distintos en el mercado laboral y consigan
ingresos diferentes incluso sin el programa de formación profesional.
Los mismos problemas surgen cuando la admisión en un programa se
basa en preferencias no observadas de los administradores del programa.
Por ejemplo, si los administradores del programa basan la admisión y la
inscripción en una entrevista. Puede que los admitidos en el programa sean
aquellos en quienes los administradores ven una buena probabilidad de
beneficiarse del programa. Tal vez los no admitidos pueden mostrar menos
motivación en la entrevista, tener calificaciones más bajas o sencillamente
carecer de destrezas en una entrevista. Como se señaló en el caso anterior,
es probable que estos dos grupos de jóvenes obtengan ingresos diferentes en
el mercado laboral incluso sin un programa de formación profesional.
Por lo tanto, el grupo que no se inscribió no proporciona una buena
estimación del contrafactual ya que la observación de una diferencia en los
ingresos entre los dos grupos no permite determinar si se debe al programa
Concepto clave de formación o a los contrastes subyacentes entre los dos grupos en motiva-
El sesgo de selección ción, destrezas y otros factores. Así, el hecho de que individuos menos
se produce cuando los motivados o menos cualificados no se hayan inscrito en el programa de for-
motivos por los que un
mación genera un sesgo en la evaluación de impacto del programa.6 Este
individuo participa en
un programa están
sesgo se llama sesgo de selección. En términos más generales, el sesgo de
correlacionados con selección se produce cuando los motivos por los que un individuo participa
los resultados. en un programa están correlacionados con los resultados, incluso en ausen-
Asegurarse de que el cia del programa. Asegurarse de que el impacto estimado esté libre de ses-
impacto estimado esté gos de selección es uno de los principales objetivos de cualquier evaluación
libre de sesgos de
de impacto, y plantea importantes dificultades. En este ejemplo, si los jóve-
selección es uno de los
principales objetivos nes que se inscribieron en la formación profesional hubiesen tenido ingre-
en cualquier sos más altos incluso en ausencia del programa, el sesgo de selección sería
evaluación de impacto positivo; en otras palabras, se sobreestimaría el impacto del programa de
y plantea importantes formación profesional al atribuirle los ingresos más altos que los participan-
dificultades. tes habrían tenido de todas maneras.
Evaluación del impacto del HISP: comparación entre

hogares inscritos y no inscritos
Después de haber reflexionado de forma más detenida sobre la compara-

ción antes-después el equipo de evaluación llega a la conclusión de que
todavía hay numerosos factores que pueden explicar parte del cambio en
los gastos en salud a lo largo del tiempo (concretamente, al ministerio de
Finanzas le preocupa que una reciente crisis financiera haya afectado los
ingresos de los hogares, y puede que explique el cambio observado en los
gastos en salud).

Otro consultor sugiere que sería más adecuado estimar el contrafac-
tual en el período posterior a la intervención, es decir, dos años después
del comienzo del programa. El consultor señala que de los 4.959 hogares
contenidos en la muestra, solo 2.907 se inscribieron en el programa, de
modo que alrededor del 41% de los hogares sigue sin cobertura del HISP.
El consultor sostiene que todos los hogares de los 100 pueblos piloto
cumplían las condiciones para inscribirse. Estos hogares comparten las
mismas clínicas de salud y están sujetos a los mismos precios locales de
los productos farmacéuticos. Además, la mayoría de los integrantes de
esos hogares trabaja en actividades económicas similares. El consultor
opina que, en estas circunstancias, los resultados del grupo no inscrito
después de la intervención podrían servir para estimar el resultado con-
trafactual del grupo inscrito en el HISP. Por lo tanto, decide calcular los
gastos promedio en salud en el período posterior a la intervención, tanto
para los hogares que se inscribieron en el programa como para los que
no lo hicieron (los resultados se recogen en el cuadro 3.3). Utilizando los
gastos promedio de salud de los hogares no inscritos como la estimación
del contrafactual, el consultor llega a la conclusión de que el programa
ha reducido los gastos promedio de salud en casi US$14,46.
Ahora bien, los hogares que decidieron no inscribirse en el programa
¿pueden ser sistemáticamente diferentes de los que sí lo hicieron? Quizá
los hogares que se inscribieron en el HISP tenían mayores gastos en salud
o eran personas con más información acerca del programa o más atentas
a la salud de su familia. Otra posibilidad es que tal vez los hogares que se
inscribieron eran más pobres, en promedio, que los que no se inscribie-
ron, ya que el HISP tenía como objetivo los hogares pobres. El consultor
asegura que el análisis de regresión puede controlar por estas diferencias
potenciales entre los dos grupos. Por lo tanto, realiza otra regresión mul-
tivariante que controla por todas las características del hogar que puede
encontrar en la base de datos, y estima el impacto del programa como se
muestra en el cuadro 3.4.
Cuadro 3.3 Evaluación del HISP según comparación inscritos-no inscritos

(comparación de medias)
Inscritos No inscritos Diferencia t-estadístico

Gasto en salud de los
hogares (en US$) 7,84 22,30 −14,46** −49,08

Cuadro 3.4 Evaluación del HISP según comparación inscritos-no inscritos
(análisis de regresión)
Regresión lineal Regresión lineal multivariante

Impacto estimado
sobre el gasto en
salud de los hogares −14,46** −9,98**
(en US$) (0,33) (0,29)

Con una simple regresión lineal de los gastos en salud en una variable
indicativa de si un hogar se inscribió o no en el programa, es posible
encontrar un impacto estimado de US$ -14,46, es decir, que el programa
ha disminuido el promedio de gastos de salud en US$14,46. Sin embargo,
cuando se controla por todas las demás características de los datos, se
estima que el programa ha reducido los gastos en salud en US$ 9,98 al año.
Pregunta HISP 2
A. ¿Este análisis controla por todos los factores que determinan las dife-
rencias en gastos en salud entre los dos grupos?
B. Sobre la base de los resultados producidos por el método de inscripción-
no inscripción, ¿debería ampliarse el HISP al nivel nacional?
 Para material complementario del libro y para otros hipervínculos de recursos,
se recomienda ver el sitio web de la Evaluación de Impacto en la Práctica
(http://www.worldbank.org/ieinpractice).
Notas
1. Usamos el Modelo Causal de Rubin como marco para la inferencia causal.
2. Esta condición se relajará en algunos métodos de evaluación de impacto que, en
cambio, requerirán que el cambio promedio en los resultados (tendencias) sea el
mismo en ausencia del programa.
3. Se supone que ningún hogar ha dejado la muestra en esos dos años (hay un
desgaste cero de la muestra). Este no es un supuesto realista en la mayoría de las
encuestas de hogares. En la práctica, a veces no se puede hacer un seguimiento de

las familias que se mudan en su nueva localidad, y algunos hogares se rompen o
dejan de existir del todo.
4. Cabe destacar que un t-estadístico (t-stat) de 1,96 o más (en valor absoluto) es
“estadísticamente significativo” en un nivel del 5%.
5. Para más información sobre el análisis multivariante, véase el manual técnico en
línea del sitio web de la Evaluación de Impacto en la Práctica (www.worldbank
.org/ieinpractice).
6. Otro ejemplo: si los jóvenes que esperan beneficiarse de un modo considerable
del sistema de formación también tienen más probabilidades de inscribirse
(tal vez porque esperan tener salarios más altos con la formación) compararlos
con un grupo de jóvenes que espera menores retornos y que no se inscribe
arrojará una estimación de impacto sesgada.
Imbens, G. y D. Rubin. 2008. “Rubin Causal Model.” En: S. N. Durlauf y L. E. Blume
(eds.), The New Palgrave Dictionary of Economics (2da. edición). Nueva York:
Palgrave.
Rubin, D. 1974. “Estimating Causal Effects of Treatments in Randomized and
Non- Randomized Studies.” Journal of Educational Psychology 66 (5): 688–701.

CAPÍTULO 4
La asignación aleatoria
La evaluación de programas basados en reglas

de asignación
Después de analizar dos estimaciones “falsificadas” del contrafactual que

se utilizan habitualmente, aunque con un alto riesgo de sesgo –las compara-
ciones antes-después y las comparaciones inscritos-no inscritos–, a conti-
nuación se presentará un conjunto de métodos que se pueden aplicar para
estimar con mayor precisión los impactos de un programa. Sin embargo,
esas estimaciones no siempre son tan fáciles como puede parecer a primera
vista. La mayoría de los programas se diseña y luego se implementa en un
entorno complejo y cambiante, donde diversos factores pueden influir en
los resultados tanto de los participantes del programa como de aquellos que
no participan. Las sequías, los terremotos, las recesiones, los cambios de
gobierno y los vaivenes de las políticas nacional e internacional forman
parte del mundo real. En una evaluación, se debe asegurar que la estima-
ción del impacto del programa siga siendo válida a pesar de esta diversidad
de factores.
Las reglas de un programa para seleccionar a los participantes constitui-
rán el parámetro clave para determinar el método de la evaluación de
impacto. Creemos que, en la mayoría de los casos, los métodos de evalua-
ción deben intentar adaptarse al contexto de las reglas operativas de un
programa (con unos pocos ajustes por aquí y por allá) y no al contrario.
Sin embargo, también se parte de la premisa de que todos los programas
71
sociales deben tener reglas de asignación justas y transparentes. Una de las
reglas más justas y transparentes para asignar recursos escasos entre pobla-
ciones que los merecen de igual manera consiste en que todos aquellos que
sean elegibles tengan la misma oportunidad de participar en el programa.
Una manera sencilla de conseguirlo es mediante un sorteo.
En este capítulo, se analizará un método que se asemeja a un sorteo y que
decide quién participa en un programa en un determinado momento y quién
no: el método de asignación aleatoria, también conocido como ensayo aleato-
rio controlado (RCT, por sus siglas en inglés, randomized control trial). Este
método no solo proporciona a los administradores del programa una regla
imparcial y transparente para asignar recursos escasos entre poblaciones
igualmente merecedoras de ellos, sino que también representa el método más
sólido para evaluar el impacto de un programa. Por eso, la aplicación del
mismo para evaluar los impactos de los programas ha aumentado de manera
considerable en los últimos años.
La asignación aleatoria del tratamiento
Cuando se asigna de forma aleatoria a los beneficiarios de un programa –es

decir, mediante sorteo– entre una población elegible numerosa, se puede
generar una estimación robusta del contrafactual. La asignación aleatoria
del tratamiento se considera la regla de oro de la evaluación de impacto.
Utiliza un proceso aleatorio, o el azar, para decidir a quién se le concederá
acceso al programa y a quién no.1 En la asignación aleatoria, todas las unida-
des elegibles (por ejemplo, una persona, un hogar, una empresa, un hospital,
una escuela o una comunidad) tienen la misma probabilidad de ser
seleccionadas para un programa.2
Antes de ver cómo se implementa la asignación aleatoria en la práctica y
por qué genera una estimación sólida del contrafactual, conviene dedicar un
momento a pensar por qué la asignación aleatoria también es una manera
justa y transparente de asignar los escasos recursos de un programa. Una
vez que se ha definido una población objetivo (por ejemplo, hogares por
debajo de la línea de la pobreza, niños menores de 5 años o caminos en zonas
rurales en el norte del país), la asignación aleatoria es una regla de asigna-
ción justa porque permite que los administradores del programa se asegu-
ren de que todas las unidades elegibles tengan la misma probabilidad de
participar en el programa y de que el programa no sea asignado con criterios
arbitrarios o subjetivos, ni por cuestiones de favoritismo u otras prácticas
injustas. Cuando se produce un exceso de demanda de un programa, la
asignación aleatoria es una regla que los administradores del mismo pueden
explicar fácilmente, que todas las partes interesadas pueden entender y que
se considera justa en numerosas circunstancias. Además, cuando el proceso
de asignación se lleva a cabo de modo abierto y transparente, no es fácil
manipularlo y, por lo tanto, protege a los administradores del programa de
posibles acusaciones de favoritismo o corrupción. Por lo tanto, como meca-
nismo de asignación, la asignación aleatoria tiene sus propios méritos,
que van mucho más allá de su utilidad como instrumento de evaluación
de impacto. De hecho, diversos programas utilizan de manera rutinaria los
sorteos como una forma de seleccionar a los participantes del conjunto de
individuos elegibles, sobre todo debido a sus ventajas administrativas y de
gobernanza.3 El recuadro 4.1 presenta dos casos de este tipo en África.
Recuadro 4.1: La asignación aleatoria como un valioso instrumen-

to operativo
La asignación aleatoria puede ser una regla útil postulantes a un lugar público, y se introducían
para asignar los beneficios de un programa, en una caja pequeños trozos de papel con
incluso fuera del contexto de una evaluación números que iban de 1 a N. Después, se
de impacto. Los siguientes dos casos de llamaba a los postulantes uno por uno para
África ilustran por qué. que sacaran un número de la caja delante de
En Costa de Marfil, después de un período todos los demás participantes. Una vez que
de crisis, el gobierno introdujo un programa se sacaba el número, se leía en voz alta.
de empleo temporal inicialmente dirigido a Después de que se había llamado a todos los
los ex combatientes, que luego se amplió postulantes, se verificaban uno por uno
a la juventud en términos más generales. El los números que quedaban en la caja
programa ofrecía a los jóvenes oportunidades para cerciorarse de que correspondieran a
de empleo de corto plazo, sobre todo participantes que no habían asistido al sorteo.
limpiando o rehabilitando caminos, a través de Si había N plazas disponibles en el programa,
la agencia nacional de vialidad. Se invitó a se seleccionaba a aquellos postulantes que
los jóvenes en las municipalidades que habían sacado los números más bajos. El
participaban a que se inscribieran. Dado el proceso de sorteo se organizó por separado
atractivo de los beneficios, fueron muchos para hombres y mujeres. Fue bien aceptado
más los jóvenes que postularon que las plazas por los participantes, y contribuyó a dar una
disponibles. Para encontrar una manera imagen de imparcialidad y transparencia
transparente y justa de asignar los beneficios al programa en un contexto posterior al
entre los postulantes, los administradores del conflicto, marcado por tensiones sociales.
programa recurrieron a un proceso de sorteo Después de varios años en marcha, los
público. Una vez que la inscripción se cerró y investigadores utilizaron esta regla de
se conocía el número de postulantes (por selección, ya integrada en el funcionamiento
ejemplo, N) en una localidad, se organizaba un del programa, para emprender su evaluación
sorteo público. Se convocaba a todos los de impacto.
La asignación aleatoria 73
Recuadro 4.1: La asignación aleatoria como un valioso instrumento operativo (continúa)
En Níger, el gobierno comenzó a responsables de los pueblos al centro

implementar en 2011 un proyecto de red de municipal, se escribían los nombres de sus
protección nacional, con el apoyo del Banco pueblos en un trozo de papel, y se introducían
Mundial. Níger es uno de los países más en una caja. Después, un niño sacaba al azar
pobres del mundo y la población de hogares los papeles que correspondían a los pueblos
pobres que merecían el programa superó por beneficiarios hasta que se llenaban las
mucho los beneficios disponibles durante los cuotas. El procedimiento se utilizó por
primeros años de funcionamiento. Los separado para pueblos sedentarios y pueblos
administradores del programa contaban con nómadas a fin de asegurar la representación
un sistema de selección geográfica para de cada grupo. (Después de seleccionar a
definir en qué departamentos y comunas los pueblos, se implementó un mecanismo
se implementaría primero el programa de de definición de objetivos a nivel de los
transferencias de efectivo. Esto se podía hogares para identificar a los hogares más
hacer porque había datos para determinar la pobres, que posteriormente fueron inscritos
pobreza relativa o el estado de vulnerabilidad como beneficiarios.) La transparencia y la
de los diversos departamentos o comunas. imparcialidad del sorteo público fueron muy
Sin embargo, dentro de las comunas, había apreciadas por las autoridades locales y de
muy pocos datos disponibles para evaluar los pueblos, y por los administradores del
qué pueblos eran más merecedores que programa, de tal manera que el proceso de
otros sobre la base de criterios objetivos. sorteo público siguió siendo utilizado en el
Así, para la primera fase del proyecto, los segundo y tercer ciclo del proyecto para
administradores del programa decidieron seleccionar más de 1.000 pueblos en todo
utilizar sorteos públicos de modo de el país. Aunque el sorteo público no fue
seleccionar a los pueblos beneficiarios dentro necesario para realizar una evaluación de
de las comunas definidas como objetivo. impacto en ese momento, su valor como
Esta decisión se llevó a cabo en parte porque instrumento operativo transparente, justo
los datos disponibles para priorizar de manera y ampliamente aceptado para asignar
objetiva a los pueblos eran limitados, y beneficios entre poblaciones que los
en parte porque en el proyecto se estaba merecían por igual, justificó la continuidad de
incorporando una evaluación de impacto. En su uso ante los administradores del programa
los sorteos públicos se invitaba a todos los y las autoridades locales.
Fuentes: Bertrand et al. (2016); Premand, Barry y Smitz (2016).
La asignación aleatoria a menudo puede derivarse de las reglas operati-

vas de un programa. En numerosos programas, la población de posibles
participantes –es decir, el conjunto de individuos que el programa qui-
siera servir– es mayor que el número de participantes a los que el programa
se puede realmente dirigir en un determinado momento. Por ejemplo,
en un solo año un programa educativo puede proporcionar materiales
escolares a 500 escuelas de un total de 1.000 escuelas elegibles en el país.
O un programa de mejora de caminos rurales puede tener el objetivo de
pavimentar 250 caminos rurales, aunque haya cientos de caminos más
que el programa desearía mejorar. O un programa de empleo para jóvenes
puede tener la meta de llegar a 2.000 jóvenes desempleados en su primer
año de funcionamiento, aunque haya decenas de miles de jóvenes en dichas
circunstancias que el programa quisiera servir. Por diversos motivos, puede
que los programas no logren alcanzar al conjunto de la población de interés.
Las limitaciones presupuestarias pueden impedir que los administradores
ofrezcan el programa a todas las unidades elegibles desde el comienzo.
Aunque haya presupuestos disponibles para cubrir un gran número de
participantes, las limitaciones de capacidad a veces impedirán que un pro-
grama pueda ser implementado para todos al mismo tiempo. Por ejemplo,
en el caso del programa de formación profesional para jóvenes, la cantidad
de jóvenes desempleados que desean obtener una formación profesional
puede ser superior al número de plazas disponibles en las escuelas técnicas
durante el primer año del programa, y eso puede restringir el número de
alumnos que pueden matricularse.
Cuando la población de participantes elegibles es superior al número de
plazas disponibles en el programa, alguien debe tomar la decisión de quién
participará y quién no. En otras palabras, los administradores del programa
deben definir un mecanismo de selección para asignar los servicios del
mismo. El programa podría funcionar según un principio de orden de
llegada, o basarse en características observables (por ejemplo, atendiendo
primero las zonas más pobres); la selección también podría basarse en
características no observables (por ejemplo, dejar que los individuos se ins-
criban a partir de sus propias motivaciones y conocimientos), o se podría
recurrir a un sorteo. Incluso en contextos donde es posible clasificar a los
participantes potenciales en función de la necesidad, puede que convenga
asignar parte de los beneficios mediante un sorteo. Por ejemplo, piénsese en
un programa que tiene como objetivo al 20% más pobre de los hogares sobre
la base de una medida del ingreso. Si el ingreso solo se puede medir de forma
imperfecta, el programa podría usar esta medida para incluir a todos los
participantes potenciales que se identifican como “de extrema pobreza”
(por ejemplo, el 15% inferior). Sin embargo, dado que el ingreso se mide de
manera imperfecta, los hogares que se encuentren justo por debajo del
umbral de elegibilidad en el percentil 20º, en la realidad pueden ser elegi-
bles o no serlo (si se pudiera medir el verdadero ingreso), mientras que los
hogares que se hallen justo por encima del percentil 20º también pueden ser
elegibles o no. En este contexto, utilizar un sorteo para determinar qué
hogares serían beneficiarios en torno al percentil 20º (por ejemplo, entre los
percentiles 15º y 25º de la distribución del ingreso) podría ser una manera
justa de asignar los beneficios en este grupo de hogares.
¿Por qué la asignación aleatoria produce una excelente
estimación del contrafactual?
Como ya se ha visto, el grupo de comparación ideal sería lo más similar

posible al grupo de tratamiento en todos los sentidos, excepto con respecto
a su participación en el programa que se evalúa. Cuando se asignan unida-
des de manera aleatoria a los grupos de tratamiento y de comparación,
ese proceso de asignación aleatoria producirá dos grupos que tienen una
alta probabilidad de ser estadísticamente idénticos, siempre que el número
de unidades potenciales a las que se aplica el proceso de asignación aleatoria
sea suficientemente grande. Concretamente, con un gran número de unida-
des el proceso de asignación aleatoria producirá grupos que tienen prome-
dios estadísticamente equivalentes en todas sus características.4
Concepto clave El gráfico 4.1 ilustra por qué la asignación aleatoria produce un grupo
En la asignación de comparación estadísticamente equivalente al grupo de tratamiento.
aleatoria, cada unidad
Supóngase que la población de unidades elegibles (el conjunto de partici-
elegible tiene la
misma probabilidad de pantes potenciales, o la población de interés para la evaluación) consiste en
ser seleccionada para más de 1.000 personas. Entonces, se asigna aleatoriamente la mitad al grupo
el tratamiento, de de tratamiento y la otra mitad al grupo de comparación. Por ejemplo, se
modo que se asegura escriben los nombres de las 1.000 personas en trozos de papel individuales,
la equivalencia entre se mezclan todos los trozos en una caja, y luego se le pide a alguien que
los grupos de
tratamiento y
extraiga a ciegas 500 nombres. Si los primeros 500 nombres constituyen el
comparación tanto en grupo de tratamiento, entonces tendríamos un grupo de tratamiento asig-
las características nado de forma aleatoria (los primeros 500 números extraídos) y un grupo
observables como en de comparación asignado también de manera aleatoria (los 500 nombres
las no observables. que quedaron en la caja).
Ahora supóngase que el 40% de las 1.000 personas originales eran mujeres.
Dado que los nombres se han asignado al azar, de los 500 nombres que
Gráfico 4.1 Características de los grupos bajo tratamiento con

asignación aleatoria
Población de unidades elegibles
La asignación aleatoria La asignación aleatoria

conserva las características conserva las características
Grupo de tratamiento: Grupo de comparación:

asignado al tratamiento no asignado al tratamiento

se sacaron de la caja, alrededor del 40% serán también mujeres. Si entre las
1.00 personas, el 20% tenía los ojos azules, entonces casi el 20% de ellas en
los grupos de tratamiento y de comparación también deberían tener los ojos
azules. En general, si la población de unidades elegibles es lo suficientemente
grande, el mecanismo de asignación aleatoria asegura que cualquier caracte-
rística de la población se transfiera tanto al grupo de tratamiento como al
grupo de comparación. Del mismo modo que las características observables,
como el sexo o el color de los ojos de un individuo, se transfieren tanto al
grupo de tratamiento como al de comparación, es lógico pensar que las carac-
terísticas que son más difíciles de observar (variables no observables), como
la motivación, las preferencias u otros rasgos de la personalidad que son
complejos de medir, también se aplicarán por igual al grupo de tratamiento y
al de comparación. Así, los grupos de tratamiento y comparación generados
a través de la asignación aleatoria serán similares no solo en cuanto a sus
características observables sino también en relación con las no observables.
Tener dos grupos similares en todos los aspectos asegura que la estimación
del contrafactual se aproxime al valor verdadero del resultado en ausencia de
tratamiento, y que una vez que el programa se haya implementado, las esti-
maciones de impacto no sufrirán un sesgo de selección.
Cuando una evaluación utiliza la asignación aleatoria para generar los
grupos de tratamiento y de comparación, en teoría, el proceso debería pro-
ducir dos grupos equivalentes, siempre que se cuente con un número de
unidades lo suficientemente grande. Con los datos de línea de base de la
muestra de evaluación con la que se cuente, se podrá comprobar empírica-
mente este supuesto y verificar que, de hecho, no hay diferencias sistemá-
ticas en las características observables entre los grupos de tratamiento y
de comparación antes del inicio del programa. Luego, si después de lanzar
el programa se observan diferencias en los resultados entre los grupos de
tratamiento y comparación, sabremos que esas diferencias se deben única-
mente a la incidencia del programa, dado que los dos grupos eran idénticos
en la línea de base, antes del inicio del programa, y que están expuestos a
los mismos factores externos a lo largo del tiempo. En este sentido, el
grupo de comparación contiene todos los factores que también pueden
explicar el resultado de interés.
Para estimar el impacto de un programa bajo la asignación aleatoria, se
debe observar la diferencia entre el resultado bajo tratamiento (el resul-
tado medio del grupo de tratamiento asignado de forma aleatoria) y nues-
tra estimación del contrafactual (el resultado medio del grupo de
comparación asignado de manera aleatoria). Así, podemos confiar en que
nuestro impacto estimado constituye el verdadero impacto del programa,
puesto que se han eliminado todos los factores observados y no observados
que, de otra manera, podrían explicar la diferencia en los resultados.
En los recuadros 4.2 a 4.6, se analizan las aplicaciones de la asignación alea-
toria en el mundo real para evaluar el impacto de diversas intervenciones
en todo el mundo.
En el gráfico 4.1 se presupone que todas las unidades de la población ele-
gible serán asignadas ya sea al grupo de tratamiento o al grupo de compara-
ción. Sin embargo, en algunos casos no es necesario incluir todas las unidades
en la evaluación. Por ejemplo, si la población de unidades elegibles es de
1 millón de madres y se quiere evaluar la efectividad de los bonos en efectivo
en la probabilidad de que estas madres vacunen a sus hijos, bastará con
seleccionar una muestra aleatoria representativa de, por ejemplo, 1.000
madres y asignar a esas 1.000 madres ya sea al grupo de tratamiento o de
comparación. El gráfico 4.2 ilustra este proceso. Según la misma lógica que
Recuadro 4.2: La asignación aleatoria como regla de selección de

un programa: las transferencias condicionadas y la educación en
México
El programa Progresa, actualmente primeros años, y las otras 181 sirvieron como
denominado “Prospera”, proporciona grupo de comparación antes de incorporarse
transferencias en efectivo a las madres al programa en el tercer año.
pobres de zonas rurales de México con la Sobre la base de la asignación aleatoria,
condición de que matriculen a sus hijos en la Schultz (2004) encontró un aumento
escuela y acudan regularmente a chequeos promedio de un 3,4% en la inscripción de
de salud (véase el recuadro 1.1 en el capítulo 1). todos los alumnos de primero a octavo
Las transferencias en efectivo para niños de grados, y el mayor incremento, de un 14,8%,a
entre tercero y noveno grado equivalen a se observó entre las niñas que habían
alrededor del 50% al 75% del costo privado terminado sexto grado. El probable motivo
de la escolarización y están garantizadas de este último resultado es que la tasa de
durante tres años. Las comunidades y niñas que tienden a abandonar la escuela
los hogares elegibles para el programa se crece a medida que estas son mayores; por
determinaron sobre la base del índice de ello, con el fin de que permanecieran en la
pobreza creado a partir de los datos del censo escuela después de los cursos de primaria,
y de la recopilación de datos básicos. Debido las niñas recibieron una transferencia
a la necesidad de desplegar en fases el ligeramente superior. Estos impactos de
programa social de gran escala, cerca de las corto plazo luego fueron extrapolados para
dos terceras partes de las localidades (314 predecir el impacto a más largo plazo del
de 495) fueron asignadas aleatoriamente para programa Progresa en la escolarización y en
ser beneficiarias del programa en los dos los ingresos a lo largo de la vida.
Fuente: Schultz (2004).

a. Para ser precisos, Schultz combinó la asignación aleatoria con el método de diferencias en diferencias que se
analiza en el capítulo 7.

Recuadro 4.3: Asignación aleatoria de donaciones para mejorar
las perspectivas de empleo juvenil en el norte de Uganda
En 2005 el gobierno de Uganda comenzó un podían financiar. Después de una selección,
programa destinado a disminuir el desempleo el gobierno elaboró una lista de 535
juvenil y a promover la estabilidad social en propuestas elegibles para el programa.
el norte del país, sacudido por conflictos. El Posteriormente, las propuestas fueron asig-
Programa de Oportunidades para los Jóvenes nadas de manera aleatoria a grupos de trata-
invitó a grupos de jóvenes adultos a presentar miento (265 propuestas) o de comparación
propuestas de ayuda para actividades (270 propuestas).
empresariales y formación profesional. Se El monto de la ayuda en el grupo de trata-
presentaron miles de propuestas, pero el miento ascendía a un promedio de US$382
gobierno solo podía financiar unas cuantas por persona. Cuatro años después del desem-
centenas. bolso, los jóvenes del grupo de tratamiento
Aprovechando la alta demanda del pro- tenían más del doble de probabilidades de
grama, los evaluadores trabajaron con el trabajar en un oficio calificado que los jóvenes
gobierno para asignar de forma aleatoria del grupo de comparación. También ganaban
cuáles serían los grupos que recibirían finan- un 38% más y ostentaban un 57% más de
ciamiento. El gobierno central pidió a los stock de capital. Sin embargo, los investigado-
gobiernos de los distritos que presentaran res no encontraron impacto alguno en la cohe-
más del doble de propuestas de las que sión social ni en las conductas antisociales.
Fuente: Blattman, Fiala y Martínez (2014).
Recuadro 4.4: Asignación aleatoria de intervenciones en abasteci-

miento de agua y saneamiento en zonas rurales de Bolivia
A partir de 2012, el gobierno boliviano, con para dar a cada comunidad elegible la misma
apoyo del Banco Interamericano de Desarrollo probabilidad de participar. Junto con los
(BID), implementó una asignación aleatoria de gobiernos municipales, los administradores
intervenciones en materia de abastecimiento del programa organizaron una serie de
de agua y saneamiento en pequeñas eventos donde celebraron sorteos públicos
comunidades rurales. En los 24 municipios ante la presencia de dirigentes comunitarios,
del país con las mayores necesidades, el la prensa y la sociedad civil.
programa identificó más de 369 comunidades Primero, se dividieron las comunidades
elegibles para la intervención. Dado que solo según el tamaño de la población. Luego,
había recursos para cubrir 182 comunidades, dentro de cada grupo, se obtuvieron al azar
el programa utilizó la asignación aleatoria los nombres de las comunidades y se
Recuadro 4.4: Asignación aleatoria de intervenciones en abastecimiento de agua y saneamiento en
zonas rurales de Bolivia (continúa)
registraron en una lista. Las comunidades misma lista ordenada de forma aleatoria
que quedaron al comienzo de la lista se para asignar un futuro financiamiento
asignaron al grupo de tratamiento. Cada después de completar la evaluación. De
concurso fue monitoreado por un notario esta manera, ninguna comunidad quedaría
público independiente, que posteriormente marginada de la intervención debido
registró y certificó los resultados, lo que únicamente a los objetivos de la evaluación, concedió
un nivel adicional de legitimidad al pero existiría un grupo de comparación proceso. En el
caso de las comunidades que mientras las limitaciones presupuestarias quedaron fuera del
programa, los gobiernos restringieran el número de proyectos en municipales se
comprometieron a utilizar la cada municipalidad.
Fuente: Proyecto Banco Interamericano de Desarrollo Nº BO-L1065, véase http://www.iadb.org/en/projects

/project-description-title,1303.html?id=BO-L1065.
Nota: Véase el sorteo público para asignaciones aleatorias en https://vimeo.com/86744573.
Recuadro 4.5: Asignación aleatoria de protección del agua de

pozos para mejorar la salud en Kenia
El vínculo entre calidad del agua e impactos la contaminación. A partir de 2005, la ONG
en la salud en los países en desarrollo ha sido International Child Support (ICS), implementó
bien documentado. Sin embargo, el valor un programa de protección de pozos en dos
sanitario de mejorar la infraestructura cerca distritos de Kenia occidental. Debido a limita-
de las fuentes de agua es menos evidente. ciones financieras y administrativas, ICS deci-
Kremer et al. (2011) midieron los efectos de dió ampliar el programa a lo largo de cuatro
un programa que proporcionaba tecnología años. Esto les permitió a los evaluadores utili-
de protección de pozos para mejorar la zar los pozos que todavía no habían recibido
calidad del agua en Kenia, asignando tratamiento como grupo de comparación.
aleatoriamente los pozos receptores del De los 200 pozos elegibles, 100 fueron
tratamiento. asignados al azar para recibir el tratamiento en
Alrededor del 43% de los hogares de las los primeros dos años. El estudio observó
zonas rurales de Kenia occidental obtienen el que la protección de los pozos redujo la con-
agua potable de pozos naturales. La tecnología taminación fecal del agua en un 66% y la dia-
de protección de fuentes de agua aísla la fuente rrea infantil entre los usuarios de los pozos
de un pozo para disminuir en un 25%.
Fuente: Kremer et al. (2011).

Recuadro 4.6: Asignación aleatoria e información a propósito de
los riesgos del VIH para reducir el embarazo adolescente en Kenia
En un experimento aleatorio que se realizó para que recibieran el primer tratamiento.
en Kenia occidental, Dupas (2011) probó la Después, se asignaron de manera aleatoria
efectividad de dos diferentes tratamientos 71 escuelas al segundo tratamiento
de educación sobre el VIH/Sida para reducir estratificando la muestra por su participación
conductas sexuales no seguras entre los en el primer tratamiento. Esto produjo cuatro
adolescentes. El primer tratamiento consistió grupos de escuelas: las escuelas que recibían
en la formación de profesores en el programa el primer tratamiento, las que recibían el
nacional de estudios sobre VIH/Sida, que se segundo, las que recibían ambos y las que no
centró en la aversión al riesgo y que promovía recibían ninguno.
la abstinencia. El segundo tratamiento, la La asignación aleatoria de las escuelas
Campaña de información sobre el riesgo garantizaba que no habría diferencias siste-
relativo, tenía como objetivo reducir las máticas en la información a la que estaban
relaciones sexuales entre hombres mayores expuestos los alumnos antes de que comen-
y chicas jóvenes proporcionando información zara el programa. Un año después de la ter-
sobre las tasas de VIH desagregadas por minación del programa, Dupas observó que
edad y sexo. la campaña de información sobre el riesgo
El estudio se llevó a cabo en dos distritos relativo produjo una disminución del 28% en
rurales de Kenia, con una muestra de la probabilidad de que una joven quedara
328 escuelas primarias. Los investigadores embarazada. En cambio, las escuelas que
asignaron de forma aleatoria 163 escuelas solo habían sido destinatarias del primer
estratificadas por localidad, puntuación de tratamiento no mostraron efecto alguno en
las pruebas y proporción alumnos/sexo, el embarazo adolescente.
Fuente: Dupas (2011).
Gráfico 4.2 Muestra aleatoria y asignación aleatoria de tratamiento
Población de unidades elegibles
Validez
La selección aleatoria
externa
conserva las características
Muestra de evaluación
La asignación aleatoria La asignación aleatoria

conserva las características conserva las características
Validez
interna
Grupo de tratamiento: Grupo de comparación:
asignado al tratamiento no asignado al tratamiento
se detalló más arriba, la selección de una muestra aleatoria de la población
de unidades elegibles para formar la muestra de evaluación conserva las
características de la población de las unidades elegibles. Dentro de la mues-
tra, la asignación aleatoria de individuos a los grupos de tratamiento y
comparación también conserva dichas características. En el capítulo 15 se
abordarán otros aspectos del muestreo.
Validez externa e interna
Los pasos de la selección aleatoria del tratamiento, que ya se han detallado,

aseguran tanto la validez interna como externa de las evaluaciones de
impacto (gráfico 4.2).
Validez interna significa que el impacto estimado del programa es el
impacto libre de todos los demás factores de confusión potenciales (o, en
otras palabras, que el grupo de comparación represente una estimación
precisa del contrafactual de modo que se estime el verdadero impacto del
programa). Hay que recordar que la asignación aleatoria produce un grupo
de comparación que es estadísticamente equivalente al grupo de trata-
Concepto clave miento en la línea de base, antes de que empiece el programa. Una vez que
Una evaluación tiene el programa comienza, el grupo de comparación está expuesto al mismo
validez interna si conjunto de factores externos que el grupo de tratamiento a lo largo del
proporciona una tiempo, con la única excepción del propio programa. Por lo tanto, si aparece
estimación precisa del cualquier diferencia en los resultados entre los grupos de tratamiento y
contrafactual mediante de comparación, solo puede deberse a la existencia del programa en el
un grupo de
grupo de tratamiento. La validez interna de una evaluación de impacto se
comparación válido.
asegura a través del proceso de asignación aleatoria del tratamiento.
Validez externa quiere decir que la muestra de la evaluación representa
Concepto clave con precisión a la población de unidades elegibles. Los resultados de la eva-
Una evaluación tiene luación se pueden entonces generalizar a la población de unidades elegibles.
validez externa si la Se utiliza el muestreo aleatorio para asegurar que la muestra de la evaluación
muestra de evaluación
refleje adecuadamente la población de unidades elegibles, de modo que los
representa con
precisión a la impactos identificados en la muestra de la evaluación pueden extrapolarse a
población de unidades la población.
elegibles. Los Nótese que se ha realizado un proceso de selección aleatoria con dos
resultados pueden objetivos diferentes: selección aleatoria de una muestra (para la validez
luego generalizarse al
externa), y asignación aleatoria del tratamiento como método de evaluación
conjunto de la
población de unidades de impacto (para la validez interna). Una evaluación de impacto puede pro-
elegibles. ducir estimaciones internamente válidas del impacto mediante una asigna-
ción aleatoria del tratamiento; sin embargo, si la evaluación se lleva a cabo
con una muestra no aleatoria de la población, puede que los impactos esti-
mados no sean generalizables para el conjunto de unidades elegibles.
Al contrario, si la evaluación utiliza una muestra aleatoria de la población de
unidades elegibles, pero el tratamiento no se asigna de manera aleatoria, la
muestra sería representativa pero el grupo de comparación puede no ser
válido, lo cual pone en entredicho la validez interna. En algunos contextos,
puede que los programas se enfrenten a limitaciones que exigen un equilibrio
entre validez interna y externa. Este es el caso, por ejemplo, del programa
analizado anteriormente, que tiene como objetivo el 20% inferior de los
hogares sobre la base del ingreso. Si este programa incorpora a todos los
hogares por debajo del percentil 15º, pero lleva a cabo una evaluación de
impacto de asignación aleatoria entre una muestra aleatoria de hogares
entre los percentiles 15º a 25º, dicha evaluación tendrá validez interna gra-
cias a la asignación aleatoria: es decir, se conocerá el verdadero impacto en
el subconjunto de hogares entre los percentiles 15º y 25º. Sin embargo, la
validez externa de la evaluación de impacto será limitada, dado que los
resultados no pueden extrapolarse directamente al conjunto de la población
de beneficiarios, en particular, a los hogares que se encuentren por debajo
del percentil 15º.
¿Cuándo puede aplicarse la asignación aleatoria?
La asignación aleatoria puede utilizarse como regla de asignación de un

programa en dos escenarios específicos:
1. Cuando la población elegible es mayor que el número de plazas disponibles
del programa. Cuando la demanda de un programa supera a la oferta, se
puede utilizar un sorteo para seleccionar el grupo de tratamiento dentro
de la población elegible. En este contexto, todas las unidades de la pobla-
ción tienen la misma probabilidad (o una probabilidad conocida superior
a 0 e inferior a 1) de ser seleccionadas para el programa. El grupo que
gana el sorteo es el grupo de tratamiento y el resto de la población a la
que no se ha ofrecido el programa es el grupo de comparación. Siempre
que exista una limitación que impida ampliar la escala del programa a
toda la población, se pueden mantener los grupos de comparación para
medir los impactos del programa a corto, mediano y largo plazo. En este
contexto, no hay un dilema ético en mantener indefinidamente un grupo
de comparación, ya que un subgrupo de la población quedará necesaria-
mente excluido del programa debido a problemas de capacidad.
Por ejemplo, el ministerio de Educación desea equipar con bibliotecas a

las escuelas públicas de todo el país, pero el ministerio de Finanzas solo
asigna un presupuesto suficiente para cubrir una tercera parte de
las bibliotecas. Si el ministerio de Educación quiere que todas las escue-
las públicas tengan las mismas posibilidades de tener una biblioteca,
organizará un sorteo en el que cada escuela tenga la misma probabilidad
(1 en 3) de resultar seleccionada. Las escuelas elegidas en el sorteo
reciben una nueva biblioteca y constituyen el grupo de tratamiento, y a
los otros dos tercios de las escuelas públicas del país no se les ofrece la
biblioteca y se convierten en el grupo de comparación. A menos que se
asignen más fondos al programa de bibliotecas, seguirá habiendo un
grupo de escuelas que no recibirá financiamiento para una biblioteca a
través del programa, y podrá usarse como grupo de comparación para
medir el contrafactual.
2. Cuando sea necesario ampliar un programa de manera progresiva hasta que
cubra a toda la población elegible. Cuando un programa se extiende por
etapas, establecer de forma aleatoria el orden en el que los participantes se
benefician del mismo ofrece a cada unidad elegible la misma posibilidad
de recibir tratamiento en la primera fase o en una fase posterior. Siempre
que no se haya sumado todavía el “último” grupo al programa, este sirve
como grupo de comparación válido a partir del cual se podrá estimar el
contrafactual para los que ya se han incorporado. Esta configuración tam-
bién puede permitir que la evaluación recoja los efectos de una exposición
diferencial al tratamiento, es decir, el efecto de recibir un programa durante
un período más o menos prolongado.
Por ejemplo, supóngase que el ministro de Salud quiere capacitar a los

15.000 profesionales de enfermería de todo el país en el uso de un nuevo
protocolo sanitario, pero necesita tres años para capacitarlos a todos. En el
contexto de una evaluación de impacto, el ministro podría seleccionar de
manera aleatoria a un tercio de las enfermeras para que reciban capacita-
ción durante el primer año, un tercio para el segundo año y un tercio para
el tercer año. Para evaluar el efecto de un programa de capacitación un
año después de su implementación, el grupo de enfermeras capacitadas
durante el primer año constituirá el grupo de tratamiento y el grupo de
enfermeras seleccionadas de modo aleatorio para recibir capacitación
durante el tercer año sería el grupo de comparación, ya que todavía no se
habrán expuesto al aprendizaje.
Cómo asignar aleatoriamente el tratamiento
Después de haber analizado cómo funciona la asignación aleatoria y por qué

produce un buen grupo de comparación, se abordarán los pasos para asignar
con éxito el tratamiento de manera aleatoria. El gráfico 4.3 ilustra este
proceso.
El primer paso de la asignación aleatoria consiste en definir las unidades
elegibles para el programa. Cabe recordar que, dependiendo del programa
concreto, una unidad podría ser una persona, un centro de salud, una
Gráfico 4.3 Pasos para la asignación aleatoria del tratamiento
1. Definir las unidades 2. Seleccionar la muestra 3. Asignar aleatoriamente al

elegibles de evaluación tratamiento
Comparación
Tratamiento
Validez externa Validez interna
No elegible Elegible
escuela, una empresa o incluso todo un pueblo o una municipalidad. La

población de unidades elegibles está compuesta por aquellos para los cuales
interesa conocer el impacto de un programa. Por ejemplo, si se está imple-
mentando un programa de formación para los maestros de escuela primaria
en zonas rurales, los maestros de escuela primaria de zonas urbanas o los
profesores de secundaria no formarían parte del conjunto de unidades
elegibles.
Una vez que se ha determinado la población de unidades elegibles, habrá
que comparar el tamaño del grupo con el número de observaciones requeri-
das para la evaluación. El tamaño de la muestra de la evaluación se establece
mediante cálculos de la potencia y se basa en el tipo de preguntas a las que el
evaluador desearía que se respondiera (ver capítulo 15). Si la población elegi-
ble es pequeña, quizás haya que incluir todas las unidades elegibles en la eva-
luación. Por el contrario, si hay más unidades elegibles de las que se requiere
para la evaluación, entonces el segundo paso consiste en seleccionar una
muestra de unidades a partir de la población que se incluirá en la muestra
de evaluación.
Este segundo paso responde sobre todo a la necesidad de limitar los
costos de la recopilación de datos. Si se observa que los datos de los sistemas
de monitoreo existentes se pueden usar para la evaluación, y que esos
sistemas abarcan al conjunto de unidades elegibles, tal vez no sea necesario
elaborar una muestra distinta de la evaluación. Sin embargo, imagínese una
evaluación en la que la población de unidades elegibles comprende decenas
de miles de maestros de todas las escuelas del país, y que se necesita recopilar
información detallada sobre los conocimientos y las prácticas pedagógicas
de los maestros. Entrevistar y evaluar a todos los docentes del país sería pro-
hibitivamente oneroso e inviable en términos logísticos. A partir de los cál-
culos de potencia, puede que el evaluador decida que, para responder a su
pregunta de interés, es suficiente contar con una muestra de 1.000 maestros
distribuidos en 200 escuelas. Siempre que la muestra de docentes sea repre-
sentativa del conjunto de la población de maestros, cualquier resultado de la
evaluación será externamente válido y se puede generalizar al resto de los
docentes del país. La recopilación de datos sobre esta muestra de 1.000
maestros en 200 escuelas será mucho menos costosa que recolectar datos
sobre todos los docentes de todas las escuelas del país.
El tercer paso consiste en configurar los grupos de tratamiento y de
comparación a partir de las unidades de la muestra de la evaluación, mediante
la asignación aleatoria. En los casos en que la asignación aleatoria tenga que
llevarse a cabo en un foro público, por ejemplo en la televisión, puede que sea
necesario utilizar una técnica sencilla, como lanzar una moneda a la suerte
o sacar los nombres de una caja. Los siguientes ejemplos suponen que la
unidad de aleatorización es una persona individual, aunque la misma lógica
se aplica a la aleatorización de más unidades agregadas de observación,
como escuelas, firmas o comunidades:
1. Si se quiere asignar el 50% de los individuos al grupo de tratamiento y

50% al grupo de comparación, hay que lanzar la moneda para cada per-
sona. Hay que decidir con antelación cuál cara de la moneda asignará una
persona al grupo de tratamiento.
2. Si se quiere asignar una tercera parte de la muestra de la evaluación al
grupo de tratamiento, se puede tirar un dado para cada persona. Antes, hay
que decidir una regla, por ejemplo, si el dado muestra 1 o 2, el individuo
será asignado al grupo de tratamiento, mientras que si arroja un 3, 4, 5 o 6
el individuo será derivado al grupo de comparación. El dado se tiraría una
vez para cada persona en la muestra de evaluación, y se la asignaría sobre
la base del número del dado.
3. Escribir los nombres de todos los individuos en trozos de papel de igual
tamaño y forma. Plegar los papeles de modo que no se puedan leer los
nombres y mezclarlos de manera conveniente en una caja o en algún otro
recipiente. Antes de empezar a sacar los nombres, debe decidirse la regla,

es decir, cuántos trozos de papel se extraerán, y que extraer un nombre
significa asignar a esa persona al grupo de tratamiento. Una vez que la
regla esté clara, se debe solicitar a alguien del público (una persona
imparcial, como un niño) que extraiga tantos trozos de papel como parti-
cipantes se requiera en el grupo de tratamiento.
Si tienen que asignarse muchas unidades (por ejemplo, más de 100), utilizar
enfoques sencillos como los descritos requerirá demasiado tiempo y habrá
que utilizar un proceso automatizado. Para ello, primero habrá que decidir
una regla de modo que se asignen los participantes sobre la base de núme-
ros aleatorios. Por ejemplo, si se deben asignar 40 de 100 unidades de la
muestra de evaluación al grupo de tratamiento, puede decidirse asignar
esas 40 unidades con los números aleatorios más altos al grupo de trata-
miento y el resto al grupo de comparación. Para implementar la asignación
aleatoria, se asignará un número al azar a cada unidad en la muestra de
evaluación, utilizando un generador aleatorio de números en una hoja de
cálculo, o en un programa estadístico especializado (gráfico 4.4), y se utili-
zará la regla ya definida para formar los grupos de tratamiento y compara-
ción. Es importante decidir la regla antes de generar los números al azar.
Gráfico 4.4 Asignación aleatoria del tratamiento mediante hoja de cálculo
De otra manera, puede que el evaluador se vea tentado de usar una regla
basada en los números aleatorios que ve, lo que invalidaría la asignación
aleatoria.
La lógica en que se fundamenta el proceso automatizado no es diferente
de la asignación aleatoria basada en lanzar una moneda o extraer nombres
de un sombrero. Se trata de un mecanismo que asigna al azar si cada unidad
pertenece al grupo de tratamiento o de comparación.
Al utilizar un sorteo público, dados o números al azar generados por
computador, es importante documentar el proceso para asegurar que sea
transparente. En primer lugar, eso significa que la regla de asignación debe
decidirse con antelación y comunicarse al público. En segundo lugar, el eva-
luador debe ceñirse a la regla una vez que se extraen los números al azar. En
tercer lugar, debe demostrarse que el proceso era realmente aleatorio. En el
caso de los sorteos y el lanzamiento de dados, se puede grabar el proceso en
video; la asignación mediante números al azar generados por computador
requiere que se presente un registro de los cómputos, de modo que el pro-
ceso pueda ser auditado.5
¿A qué nivel se lleva a cabo una asignación aleatoria?
La asignación aleatoria puede llevarse a cabo en diversos niveles: indivi-

dual, hogares, empresas, comunidades o regiones. En general, el nivel en el
que se asignan aleatoriamente las unidades a los grupos de tratamiento y de
comparación dependerá en gran medida de dónde y cómo se implemente el
programa. Por ejemplo, si se aplica un programa sanitario a nivel de las
clínicas de salud, primero se elegirá una muestra aleatoria de dichas clínicas
y después se asignará algunas de ellas al grupo de tratamiento y otras al
grupo de comparación.
Cuando el nivel de asignación aleatoria es superior o más agregado, como
el nivel regional o provincial, puede resultar difícil realizar una evaluación
de impacto, porque el número de regiones o provincias en la mayoría de los
países no es suficientemente grande para obtener grupos equilibrados de
tratamiento y de comparación. Si un país tiene únicamente seis provincias,
solo podrá haber tres de ellas en el grupo de tratamiento y tres en el grupo
de comparación, lo cual es insuficiente para asegurar que las características
de referencia de los grupos de tratamiento y comparación estén equilibra-
das. Además, para que la asignación aleatoria genere estimaciones de
impacto no sesgadas, es importante garantizar que los factores externos
dependientes del tiempo (como el clima o los ciclos de las elecciones locales)
sean en promedio los mismos en los grupos de comparación y de trata-
miento. A medida que el nivel de asignación aumenta, se vuelve cada vez
más improbable que estos factores estén equilibrados entre ambos grupos.
Por ejemplo, la lluvia es un factor externo dependiente del tiempo porque
varía sistemáticamente de un año al siguiente. En una evaluación del sector
agrícola, convendría asegurarse de que las sequías afecten por igual a las
provincias que se encuentran en el grupo de tratamiento y en el de compa-
ración. Con solo tres provincias en los grupos de tratamiento y comparación,
este equilibrio podría perderse con facilidad. Por otro lado, si se rebajara la
unidad de selección al nivel subprovincial, como una municipalidad, es más
probable que la lluvia esté equilibrada entre los grupos de tratamiento y
comparación a lo largo del tiempo.
Asimismo, a medida que el nivel de la asignación aleatoria disminuye
–por ejemplo, a nivel individual o del hogar– aumentan las probabilidades
de que el grupo de comparación se vea afectado de forma involuntaria por
el programa. Hay dos tipos particulares de riesgos que se deben tener en
cuenta cuando se escoge el nivel de asignación, a saber: los efectos de
derrame y el cumplimiento imperfecto. El efecto de derrame se produce
cuando el grupo de tratamiento influye de forma directa o indirecta en los
resultados del grupo de comparación (o viceversa). Por su parte, el cumpli-
miento imperfecto tiene lugar cuando algunos miembros del grupo de
comparación participan en el programa o algunos miembros del grupo
de tratamiento no lo hacen (véase un análisis más detallado de estos con-
ceptos en el capítulo 9).
Tener en cuenta el nivel de asignación aleatoria de manera rigurosa
puede minimizar el riesgo de derrame y de cumplimiento imperfecto. Las
personas pueden asignarse a grupos o agrupaciones, como los alumnos de
una escuela o los hogares en una comunidad, para minimizar los flujos de
información y los contactos entre individuos en los grupos de tratamiento
y comparación. Para reducir la contaminación, el nivel de asignación
también debería escogerse según la capacidad del programa para mantener
una clara diferencia entre grupos de tratamiento y comparación a lo largo
de la intervención. Si el programa comprende actividades a nivel comuni-
tario, puede que sea difícil evitar exponer a todos los individuos de esa
comunidad al programa.
Un ejemplo bien conocido de efecto de derrame es la administración de
medicamentos antiparasitarios a los niños. Si en el grupo de tratamiento
hay hogares situados cerca de un hogar del grupo de comparación, los
niños de los hogares de comparación pueden verse afectados positivamente
por un efecto de derrame del grupo de tratamiento, porque se reducirán sus
probabilidades de contraer parásitos procedentes de sus vecinos (Kremer y
Miguel, 2004). Para aislar el impacto del programa, los hogares de trata-
miento y comparación deben estar situados suficientemente lejos unos de
otros de modo de evitar ese tipo de derrames. Sin embargo, a medida que la
distancia entre los hogares aumente, se volverá más oneroso implementar
el programa y, a la vez, administrar las encuestas. Como regla general, si se
pueden descartar los efectos de derrame de forma razonable, es preferible
llevar a cabo una asignación aleatoria del tratamiento en el nivel más
bajo posible de implementación del programa, lo cual garantizará que el
número de unidades de los grupos de tratamiento y comparación sea el
mayor posible.
La estimación del impacto bajo asignación aleatoria
Una vez que se haya seleccionado una muestra de evaluación aleatoria y

asignado el tratamiento de manera aleatoria, es bastante sencillo estimar el
impacto del programa. Después de que el programa ha funcionado durante
un tiempo, tendrán que medirse los resultados de las unidades de trata-
miento y de comparación. El impacto del programa es sencillamente la dife-
rencia entre el resultado promedio (Y) para el grupo de tratamiento y
el resultado promedio (Y) para el grupo de comparación. Por ejemplo, en
el caso genérico que se presenta en el gráfico 4.5, el resultado promedio
del grupo de tratamiento es 100, y el resultado promedio del grupo de
comparación es 80, por lo que el impacto del programa equivale a 20. Por
ahora, se supondrá que todas las unidades en el grupo de tratamiento son
efectivamente tratadas y que ninguna unidad del grupo de comparación es
tratada. En el ejemplo del programa de formación de los profesores, todos
los profesores asignados al grupo de tratamiento reciben la formación y nin-
guno de los profesores del grupo de comparación la recibe. En el capítulo 5,
se analiza el escenario (más realista) donde el cumplimiento es incompleto,
es decir, donde menos del 100% de las unidades en el grupo de tratamiento
realmente participa en la intervención o algunas unidades de comparación
tienen acceso al programa. En este caso, todavía se puede obtener una esti-
mación no sesgada del impacto del programa mediante la asignación aleato-
ria, aunque la interpretación de los resultados variará.
Gráfico 4.5 Estimación del impacto con la asignación aleatoria
Tratamiento Comparación Impacto

Media (Y ) para el grupo Media (Y ) para el grupo Impacto = Y = 20
de tratamiento = 100 de comparación = 80
Se inscribe
si y solo si
está
asignado
al grupo de
tratamiento

Lista de verificación: la asignación aleatoria
La asignación aleatoria es el método más robusto para estimar los contrafac-

tuales; se considera el sello de oro de la evaluación de impacto. Para estimar
la validez de esta estrategia de evaluación en un determinado contexto,
deberían contemplarse algunas pruebas básicas.
 ¿Están equilibradas las características de la línea de base? Deben com-
pararse las características de línea de base del grupo de tratamiento y
del grupo de comparación.6
 ¿Se ha producido algún incumplimiento con la asignación? Se debe veri-
ficar si todas las unidades elegibles han recibido tratamiento y que no
haya unidades no elegibles que hayan recibido tratamiento. Si ha habido
incumplimiento, tendrá que utilizarse el método de variable instrumen-
tal (véase el capítulo 5).
 ¿Son suficientemente numerosas las unidades en los grupos de trata-
miento y comparación? Si no, sería necesario combinar la asignación
aleatoria con diferencias en diferencias (véase el capítulo 7).
 ¿Hay algún motivo para creer que los resultados en algunas unidades de
alguna manera dependen de la asignación de otras unidades? ¿Podría
haber un impacto del tratamiento en las unidades del grupo de compara-
ción? (véase el capítulo 9).
Evaluación del impacto del HISP con la asignación

aleatoria
Volvamos al ejemplo del Programa de Subsidios de Seguros de Salud

(HISP, por sus siglas en inglés, Health Insurance Subsidy Program) y veri-
fiquemos qué significa asignación aleatoria en este contexto. Recuérdese
que se intenta estimar el impacto de un programa a partir de una prueba
piloto que comprende 100 pueblos de tratamiento.
Después de llevar a cabo dos evaluaciones de impacto utilizando
estimaciones potencialmente sesgadas del contrafactual en el
capítulo 3 (con recomendaciones de políticas contradictorias), usted
decide volver a repensar cómo obtener una estimación más precisa del
contrafactual. Después de consultar con su equipo de evaluación, está
convencido de que construir una estimación válida del contrafactual
requerirá identificar un grupo de pueblos que sean lo más parecidos
posible a los 100 pueblos del tratamiento en todos los sentidos, con la
excepción de que un grupo participó en el HISP y el otro no. Dado que
el HISP se implementó como plan piloto, y que los 100 pueblos de
tratamiento fueron seleccionados de forma aleatoria entre los pueblos
rurales en todo el país, usted observa que los pueblos del tratamiento
deberían, en promedio, tener las mismas características que los pue-
blos rurales no tratados en todo el país. Por lo tanto, se puede estimar
el contrafactual de una manera válida, midiendo los gastos en salud de
los hogares elegibles en los pueblos rurales que no participaron del
programa.
Afortunadamente, en el momento de las encuestas de línea de base y
de seguimiento, se recopilaron datos de otros 100 pueblos rurales a los
que no se ofreció el programa. Esos 100 pueblos también fueron selec-
cionados de manera aleatoria entre la población de los pueblos rurales
en el país. Por lo tanto, la manera en que fueron escogidos los dos gru-
pos de pueblos garantiza que tienen características estadísticamente
idénticas, excepto que los 100 pueblos de tratamiento se inscribieron
en el HISP y los 100 pueblos del grupo de comparación no fueron
destinatarios del programa. Se ha producido una asignación aleatoria
del tratamiento.
Dada la asignación aleatoria del tratamiento, usted confía en que
ningún factor externo, excepto el HISP, explicaría las diferencias en los
resultados entre los pueblos de tratamiento y de comparación. Para
validar este supuesto, usted comprueba si los hogares elegibles en los
pueblos de tratamiento y comparación tienen características similares
en la línea de base, como se muestra en el cuadro 4.1.
Usted observa que las características promedio de los hogares en los
pueblos de tratamiento y de comparación son, de hecho, muy similares.
Las únicas diferencias estadísticamente significativas son las relativas
al número de años de escolarización del jefe de hogar y la distancia
al hospital, y esas diferencias son pequeñas (solo 0,16 años, o menos
del 6% de los años de escolarización promedio del grupo de compara-
ción, y 2,91 km, o menos del 3% de la distancia promedio al hospital del
grupo de comparación). Incluso con un experimento aleatorio en una
muestra grande, se puede esperar un pequeño número de diferencias
debido al azar y a las propiedades del test estadístico. De hecho, al
utilizar niveles de significancia estándar del 5%, podía esperarse que
alrededor del 5% de las diferencias en las características sean estadísti-
camente significativas, aunque no se esperaría que la magnitud de estas
diferencias fuese grande.

Cuadro 4.1 Evaluación del HISP: balance entre los pueblos de tratamiento
y de comparación en la línea de base
Pueblos de Pueblos de
Características tratamiento comparación
de los hogares (N = 2964) (N = 2664) Diferencia t-estadístico
Gasto en salud
(dólares de
EE.UU. anuales
per cápita) 14,49 14,57 −0,08 −0,73
Edad del jefe
de hogar (años) 41,66 42,29 −0,64 −1,69
Edad del
cónyuge (años) 36,84 36,88 0,04 0,12
Nivel de
estudios del
jefe de hogar
(años) 2,97 2,81 0,16* 2,30
Nivel de
estudios del
cónyuge (años) 2,70 2,67 0,03 0,43
Jefe de hogar
es mujer = 1 0,07 0,08 −0,01 −0,58
Jefe de hogar
es indígena = 1 0,43 0,42 0,01 0,69
Número de
miembros del
hogar 5,77 5,71 0,06 1,12
Tiene suelo de
tierra 0,72 0,73 −0,01 −1,09
Tiene baño = 1 0,57 0,56 0,01 1,04
Hectáreas de
terreno 1,68 1,72 −0,04 −0,57
Distancia a un
hospital (km) 109,20 106,29 2,91 2,57
Con la validez del grupo de comparación ya establecida, ahora

se puede estimar el contrafactual como los gastos promedio en salud
de los hogares elegibles en los 100 pueblos del grupo de comparación.
El cuadro 4.2 muestra los gastos promedio en salud de los hogares
elegibles en los pueblos de los grupos de tratamiento y de compara-
ción. Nótese que en la línea de base los gastos promedio en salud de los
Cuadro 4.2 Evaluación del HISP según la asignación aleatoria
Tratamiento Comparación Diferencia t-estadístico

Línea de base:
gasto en salud
de los hogares
(en dólares de
EE.UU.) 14,49 14,57 −0,08 −0,73
Encuesta de
seguimiento:
gasto en salud
de los hogares
(en dólares de
EE.UU.) 7,84 17,98 −10,14** −49,15
hogares de los grupos de tratamiento y comparación no son estadísti-

camente diferentes, como debería esperarse con una asignación
aleatoria.
Ahora que se cuenta con un grupo de comparación válido, se puede
encontrar el impacto del HISP sencillamente calculando la diferencia
entre los gastos directos promedio en salud de los hogares en los pueblos
de tratamiento y de comparación asignados de forma aleatoria en el
período de seguimiento. El impacto es una reducción de US$10,14 a lo
largo de dos años. Replicar este resultado mediante un análisis de regre-
sión lineal arroja el mismo resultado, como se observa en el cuadro 4.3.
Por último, mediante un análisis de regresión multivariante que controla
por otras características observables de los hogares de la muestra, se
observa que el programa ha reducido los gastos de los hogares inscritos
en US$10,01, a lo largo de dos años, lo cual es casi idéntico al resultado de
la regresión lineal.
Con la asignación aleatoria, podemos estar seguros de que no hay
factores que sean sistemáticamente diferentes entre los grupos de trata-
miento y comparación que también puedan explicar la diferencia en
gastos en salud. Ambos conjuntos de pueblos comenzaron con caracterís-
ticas promedio muy similares y han estado expuestos al mismo conjunto
de políticas y programas nacionales durante los dos años de tratamiento.
Por lo tanto, el único motivo plausible por el que los hogares pobres en las
comunidades de tratamiento tienen gastos inferiores a los de los hogares

en los pueblos de comparación es que el primer grupo fue destinatario
del programa de seguro de salud y el otro grupo no lo fue.
Cuadro 4.3 Evaluación del HISP según la asignación aleatoria

Regresión
Regresión lineal lineal multivariante
Impacto estimado sobre
el gasto en salud de los −10,14** −10,01**
hogares (0,39) (0,34)
Nota: Los errores estándares están entre paréntesis.

Pregunta HISP 3
A. ¿Por qué la estimación de impacto obtenida mediante una regresión

lineal multivariante se mantiene básicamente constante cuando se
controla por otros factores, al cotejarse con la regresión lineal simple
y la comparación de medias?
B. Sobre la base del impacto estimado con el método de asignación alea-
toria, ¿debería ampliarse el HISP a nivel nacional?
 Para material de apoyo para este capítulo e hipervínculos de recursos

adicionales, se recomienda consultar el sitio web de la Evaluación de
Impacto en la Práctica (http://www.worldbank.org/ieinpractice).
 Para más recursos sobre las evaluaciones de impacto con asigna-
ción aleatoria, véase el portal de evaluación del BID (www.iadb
.org/portalevaluacion).
 Para un resumen completo de las evaluaciones de impacto con asigna-
ción aleatoria, véase el siguiente libro y el sitio web correspondiente:
➢ R. Glennerster y K. Takavarasha (2013), Running Randomized Evaluations:
A Practical Guide. Princeton, NJ: Princeton University Press (http://
runningres.com/).
 Para un debate en profundidad sobre cómo encontrar el equilibrio entre
grupos de tratamiento y de comparación mediante la asignación aleato-
ria, véase:
➢ M. Bruhn y D. McKenzie (2009), “In Pursuit of Balance: Randomization in
Practice in Development Field Experiments.” American Economic Journal:
Applied Economics 1(4): 200–32.
 Para un ejemplo de asignación aleatoria pública para una evaluación en

Camerún, véase el World Bank Impact Evaluation Toolkit, Módulo 3
(www.worldbank.org/health/impactevaluationtoolkit).
Notas
1. La asignación aleatoria del tratamiento también suele denominarse ensayo
aleatorio controlado, evaluaciones aleatorias, evaluaciones experimentales y
experimentos sociales, entre otras denominaciones. Estrictamente hablando, un
experimento no tiene que identificar impactos mediante asignaciones aleatorias,
pero los evaluadores suelen utilizar el término “experimento” solo cuando la
evaluación recurre a la asignación aleatoria.
2. Nótese que esta probabilidad no necesariamente significa una probabilidad del
50% de ganar el sorteo. En la práctica, la mayoría de las evaluaciones con
asignación aleatoria darán a cada unidad elegible una probabilidad de selección
determinada, de manera que el número de ganadores (tratamientos) sea igual al
total de beneficios disponibles. Por ejemplo, si un programa tiene suficientes
fondos para servir solo a 1.000 comunidades de una población de 10.000
comunidades elegibles, cada comunidad tendrá una probabilidad de una entre
10 de ser seleccionada para el tratamiento. La potencia estadística (un concepto
analizado más en detalle en el capítulo 15) se maximizará cuando la muestra de
evaluación se divida por igual entre los grupos de tratamiento y comparación.
En el ejemplo de este caso, para un tamaño total de la muestra de 2.000
comunidades, la potencia estadística se maximizará si se seleccionan las
1.000 comunidades de tratamiento y una submuestra de 1.000 comunidades
de comparación, en lugar de tomar una muestra aleatoria simple del 20% de las
10.000 comunidades originales elegibles (lo que produciría una muestra de
evaluación de alrededor de 200 comunidades de tratamiento y 1.800
comunidades de comparación).
3. Por ejemplo, los programas de vivienda que otorgan viviendas subvencionadas
suelen utilizar los sorteos para seleccionar a los participantes del programa.
Numerosas escuelas subvencionadas en Estados Unidos seleccionan a los
postulantes mediante sorteo.
4. Además de crear grupos que tienen características promedio similares, la
asignación aleatoria también crea grupos que tienen distribuciones similares.
5. La mayoría de los programas informáticos permiten establecer un número
aleatorio para que los resultados de la asignación aleatoria sean plenamente
transparentes y replicables.

6. Como se ha mencionado, por motivos estadísticos no todas las características
observables deben ser similares en los grupos de tratamiento y de comparación
para que la aleatorización sea exitosa. Incluso cuando las características de los
dos grupos son verdaderamente idénticas, se puede esperar que el 5% de las
mismas aparecerán con una diferencia estadísticamente significativa cuando se
utiliza un intervalo de confianza de 95% para la prueba. Las variables en cuyo
caso se presenta una diferencia grande entre los grupos de tratamiento y de
comparación son especialmente preocupantes.
Bertrand, M., B. Crépon, A. Marguerie y P. Premand. 2016. “Impacts à Court et
Moyen Terme sur les Jeunes des Travaux à Haute Intensité de Main d’oeuvre
(THIMO): Résultats de l’évaluation d’impact de la composante THIMO du
Projet Emploi Jeunes et Développement des Compétence (PEJEDEC) en Côte
d’Ivoire.” Washington, D.C.: Banco Mundial y Abidjan, BCP-Emploi.
Blattman, C., N. Fiala y S. Martínez. 2014. “Generating Skilled Self-Employment in
Developing Countries: Experimental Evidence from Uganda.” Quarterly Journal
of Economics. (doi: 10.1093/qje/qjt057.).
Bruhn, M. y D. McKenzie. 2009. “In Pursuit of Balance: Randomization in Practice
in Development Field Experiments.” American Economic Journal: Applied
Economics 1(4): 200–32.
Dupas, P. 2011. “Do Teenagers Respond to HIV Risk Information? Evidence from
a Field Experiment in Kenya.” American Economic Journal: Applied Economics
3 (1): 1–34.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Kremer, M., J. Leino, E. Miguel y A. Peterson Zwane. 2011. “Spring Cleaning: Rural
Water Impacts, Valuation, and Property Rights Institutions.” Quarterly Journal
of Economics 126: 145–205.
Kremer, M. y E. Miguel. 2004. “Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities.” Econometrica 72 (1):
159–217.
Premand, P., O. Barry y M. Smitz. 2016. “Transferts monétaires, valeur ajoutée de
mesures d’accompagnement comportemental, et développement de la petite
enfance au Niger. Rapport descriptif de l’évaluation d’impact à court terme du
Projet Filets Sociaux.” Washington, D.C.: Banco Mundial.
Schultz, P. 2004. “School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program.” Journal of Development Economics 74 (1): 199–250.
CAPÍTULO 5
Las variables instrumentales
La evaluación de programas cuando no todos

cumplen su asignación
En el análisis de la asignación aleatoria del capítulo 4, se asume que el admi-

nistrador del programa tiene la facultad para asignar la intervención a los gru-
pos de tratamiento y de comparación, y que los asignados al tratamiento
participan en el programa y los asignados al grupo de comparación no lo hacen.
En otras palabras, las observaciones asignadas a los grupos de tratamiento y
de comparación cumplen su asignación. El pleno cumplimiento se logra con
mayor frecuencia en pruebas de laboratorio o en ensayos médicos, donde el
investigador puede asegurar, primero, que todos los sujetos del grupo de tra-
tamiento reciban un determinado tratamiento y, segundo, que no lo reciba
ninguno de los sujetos del grupo de comparación.1 De manera más general, en
el capítulo 4 se asume que los programas pueden determinar quiénes son
los participantes potenciales, excluyendo a algunos y asegurando que otros
participen.
Sin embargo, en los programas sociales del mundo real, puede que sea
poco realista pensar que el administrador del programa será capaz de
asegurar un cumplimiento pleno de la asignación del grupo. Aun así, nume-
rosos programas permiten a los participantes potenciales elegir si se inscri-
ben o no y, por lo tanto, no pueden excluir a participantes potenciales que
quieran inscribirse. Además, algunos programas tienen un presupuesto lo
suficientemente grande para administrar la intervención de forma inmediata
99
Concepto clave a toda la población elegible, de modo que no sería ético asignar aleatoria-
El método de variables mente a las personas a los grupos de tratamiento y de comparación, y excluir
instrumentales se a participantes potenciales en aras de la evaluación. Por ende, se necesita una
sustenta en alguna manera alternativa de evaluar el impacto de este tipo de programas.
fuente externa de El método denominado variables instrumentales (VI) puede resultar útil
variación para
para evaluar los programas con cumplimiento imperfecto, inscripción
determinar el estatus
del tratamiento. Ejerce voluntaria o cobertura universal. En general, para estimar los impactos, el
una influencia sobre la método VI depende de una fuente externa de variación para determinar el
probabilidad de estatus del tratamiento. El método puede aplicarse a un amplio espectro de
participar en un situaciones, más allá de la evaluación de impacto. Se puede pensar en una VI
programa, pero está
como algo que escapa al control del individuo y que influye en su probabili-
fuera del control de los
participantes y no se
dad de participar en un programa pero que, de otra manera, no está asociado
relaciona con las con las características de dicho individuo.
características de los En este capítulo, se analizará cómo esta variación externa, o VI, puede
mismos. ser generada por las reglas de funcionamiento del programa que está bajo
el control de los encargados del mismo o de los equipos de evaluación. Para
producir evaluaciones de impacto válidas, esta fuente externa de variación,
o VI, debe satisfacer un cierto número de condiciones, las cuales se aborda-
rán detenidamente en este capítulo. Se ha observado que la asignación
aleatoria del tratamiento, como se señaló en el capítulo 4, es un muy
buen instrumento y que satisface las condiciones necesarias. El método VI
se utilizará en dos aplicaciones comunes de la evaluación de impacto.
Primero, se usará como una extensión del método de asignación aleatoria
cuando no todas las unidades cumplen con su asignación de grupo.
En segundo lugar, se recurrirá a él para diseñar una promoción aleatoria
del tratamiento, un método de evaluación que puede funcionar en algunos
programas que ofrecen inscripción voluntaria o cobertura universal.
El recuadro 5.1 ilustra un uso creativo del método de VI.
Tipos de estimaciones de impacto
Una evaluación de impacto siempre estima el impacto de un programa com-

parando los resultados de un grupo de tratamiento con la estimación de un
contrafactual obtenido de un grupo de comparación válido. En el capítulo 4
se asumía que había pleno cumplimiento en el tratamiento, es decir, que
todas las unidades a las que se ofrecía un programa se inscribían en él y que
ninguna de las unidades del grupo de comparación recibía el programa. En
este escenario, se estimaba el efecto promedio del tratamiento para la
población.
En la evaluación de los programas en el mundo real, donde los
participantes potenciales pueden decidir si se inscriben o no, el pleno
Recuadro 5.1: El uso de variables instrumentales para evaluar el
impacto de Plaza Sésamo en la preparación escolar
El programa de televisión Plaza Sésamo, entre los hogares y la antena de televisión
destinado a preparar a los niños en edad más cercana que transmitiera UHF como
preescolar para la escuela primaria, obtuvo instrumento de participación en el programa.
rápidamente la aclamación de la crítica y gozó Los investigadores sostenían que, dado que
de gran popularidad al emitirse por primera vez las antenas de televisión estaban construidas
en 1969. Desde entonces lo han visto millones en lugares escogidos por el gobierno –antes
de niños. En 2015 Kearney y Levine se de que Plaza Sésamo comenzara a ser
propusieron estudiar los impactos a largo plazo emitido– la variable no estaría relacionada
del programa en una evaluación retrospectiva con las características del hogar ni con
realizada en Estados Unidos. Aprovechando cambios en el resultado.
las limitaciones de la tecnología de las La evaluación encontró resultados
emisiones televisivas durante los primeros positivos en la preparación escolar de los
años del programa, los investigadores utilizaron niños en edad preescolar. En las zonas con
un enfoque de variables instrumentales (VI). recepción de la señal de televisión UHF
En los primeros años, el programa no cuando el programa comenzó, los niños
llegaba a todos los hogares. Solo se emitía tenían más probabilidades de cursar la
en los canales de frecuencia ultra alta (UHF). escuela primaria a la edad adecuada. Este
Así, alrededor de solo dos tercios de la efecto fue notable en los niños afroamericanos
población de Estados Unidos vivía en zonas y en los niños no hispanos, en los varones y
con acceso al programa. Por lo tanto, en los pequeños de zonas económicamente
Kearney y Levine (2015) utilizaron la distancia desfavorecidas.
Fuente: Kearney y Levine (2015).
cumplimiento es menos común que en contextos como los experimentos de

laboratorio. En la práctica, los programas suelen ofrecer tratamiento a un
grupo específico, y algunas unidades participan y otras no. En este caso, sin
pleno cumplimiento, las evaluaciones de impacto pueden estimar el efecto
de ofrecer un programa o el efecto de participar en el programa.
La intención de tratar (ITT, por sus siglas en inglés, intention-to-treat)
es un promedio ponderado de los resultados de los participantes y no
participantes en el grupo de tratamiento versus el resultado promedio
del grupo de comparación. Es importante en aquellos casos en los que
se intenta determinar el impacto promedio de ofrecer un programa y la
inscripción en el grupo de tratamiento es voluntaria. En cambio, puede
que también se desee conocer el impacto de un programa en el grupo
de individuos a los que se ofrece el programa y que realmente participan.
Las variables instrumentales 101
Concepto clave Este impacto estimado se denomina tratamiento en los tratados (TOT,
La intención de tratar por sus siglas en inglés, treatment-on-the-treated). La ITT y el TOT serán
(ITT) estima la iguales cuando haya pleno cumplimiento. Más adelante se volverá sobre
diferencia en los
las diferencias entre ambos, pero ahora se presentará un ejemplo para
resultados entre las
unidades asignadas al
ilustrar estos conceptos.
grupo de tratamiento y Considérese el Programa de Subsidios de Seguros de Salud (HISP, por sus
las unidades siglas en inglés), que se ha analizado en los capítulos anteriores. Debido a
asignadas al grupo de consideraciones operativas y para minimizar los efectos de derrame, la uni-
comparación, dad de asignación del tratamiento elegida por el gobierno es el centro
independientemente
poblado. Los hogares de un centro poblado de tratamiento (las circunscrip-
de si las unidades
asignadas al grupo de ciones donde se ofrece el programa de seguro de salud) pueden inscribirse
tratamiento reciben en de forma voluntaria para un subsidio de seguro de salud, mientras que los
efecto el tratamiento. hogares de las comunidades de comparación no pueden. A pesar de que
todos los hogares de los pueblos de tratamiento son elegibles para inscri-
Concepto clave birse en el programa de seguro de salud, puede que una parte de los mismos
El tratamiento en los –por ejemplo, el 10%– decida no hacerlo (quizá porque ya tienen un seguro
tratados (TOT) estima a través de sus empleos, porque están sanos y no prevén la necesidad de cui-
la diferencia en los dados sanitarios, o por muchos otros motivos).
resultados entre las
En este escenario, el 90% de los hogares del pueblo de tratamiento
unidades que
realmente reciben el decide inscribirse en el programa y recibe los servicios que este ofrece. La
tratamiento y el grupo estimación de ITT se obtendría comparando el resultado promedio de
de comparación. todos los hogares a los que se ofreció el programa –es decir, el 100% de los
hogares de los centros poblados de tratamiento– con el resultado promedio
en los pueblos de comparación (donde no se ha inscrito ningún hogar). En
cambio, el TOT se puede ver como el impacto estimado para el 90% de los
hogares de las circunscripciones de tratamiento que se inscribieron en el
programa. Cabe señalar que el impacto del TOT no es necesariamente el
mismo que el impacto que se obtendría para el 10% de los hogares de los
pueblos de tratamiento que no se inscribieron, en caso de que se inscriban.
Esto es debido a que los individuos que participan en un programa cuando
el mismo es ofrecido pueden ser distintos a los individuos a los que se ofrece
el programa pero que deciden no inscribirse. Por ello, los efectos del trata-
miento “local” no pueden extrapolarse directamente de un grupo a otro.
El cumplimiento imperfecto
Como ya se ha señalado, en los programas sociales del mundo real, el pleno

cumplimiento con los criterios de selección de un programa (y, por ende, la
adhesión a la condición de tratamiento o comparación) es deseable, y los
responsables de las políticas y los equipos de evaluación por igual suelen
intentar acercarse lo más posible a ese ideal. Sin embargo, en la práctica, no
siempre se consigue un cumplimiento del 100% de las asignaciones a los
grupos de tratamiento y comparación, a pesar de los esfuerzos del encargado
del programa y del equipo de evaluación. A continuación, se presentarán
diferentes casos que pueden ocurrir y se debatirán las implicaciones para
los métodos de evaluación que se pueden utilizar. Para empezar, hay que
subrayar que la mejor solución para el cumplimiento imperfecto consiste
sencillamente en evitarlo. En este sentido, los administradores del programa
y los responsables de las políticas deberían intentar que el cumplimiento sea
lo más alto posible en el grupo de tratamiento y lo más bajo posible en el
Supóngase que se intenta evaluar un programa de formación docente,
para el cual son elegibles 2.000 maestros a fin de que participen en una
capacitación piloto. Los maestros han sido asignados de forma aleatoria
a uno de dos grupos: 1.000 al de tratamiento y otros 1.000 al de comparación.
Cuando todos los docentes del grupo de tratamiento reciben la capacita-
ción, y ninguno en el grupo de comparación la ha recibido, se estima el
efecto promedio del tratamiento (ATE, por sus siglas en inglés, average
treatment effect) calculando la diferencia en los resultados medios (por
ejemplo, las puntuaciones en las pruebas de los alumnos) entre los dos gru-
pos. Este ATE es el impacto promedio del tratamiento en los 1.000 maestros,
dado que todos los maestros asignados al grupo de tratamiento realmente
asisten al curso, algo que no ocurre con ninguno de los maestros asignados
al grupo de comparación.
El primer caso de cumplimiento imperfecto ocurre cuando algunas
unidades asignadas al grupo de tratamiento deciden no inscribirse o, por
algún otro motivo, no reciben tratamiento. En el ejemplo de la formación
docente, algunos maestros asignados al grupo de tratamiento no se pre-
sentan el primer día del curso. En este caso, no se puede calcular el trata-
miento promedio para todos los maestros porque algunos nunca se
inscribieron; por lo tanto, nunca se podrá calcular qué resultados habrían
tenido con el tratamiento. Sin embargo, se puede estimar el impacto pro-
medio del programa en aquellos que realmente siguen o aceptan el trata-
miento. Se quiere estimar el impacto del programa en aquellos maestros a
los que se asignó el tratamiento y que en la práctica se inscribieron. Esta es
la estimación del TOT. En el ejemplo de la formación docente, la estima-
ción del TOT representa el impacto en los maestros asignados al grupo de
tratamiento que se presentaron y recibieron la capacitación.
El segundo caso de cumplimiento imperfecto se produce cuando los
individuos asignados al grupo de comparación consiguen participar en el
programa. En este caso, los impactos no pueden estimarse directamente
para todo el grupo de tratamiento porque sus “contrapartes” en el grupo de
comparación no se pueden observar sin tratamiento. Se suponía que las
unidades tratadas en el grupo de comparación generaban una estimación
del contrafactual para algunas unidades en el grupo de tratamiento, pero
en la práctica reciben el tratamiento; por lo tanto, no hay manera de saber
cuál habría sido el impacto del programa en este subconjunto de indivi-
duos. En el ejemplo de la formación docente, supóngase que los maestros
más motivados del grupo de comparación consiguen asistir de alguna
manera al curso. En este caso, los más motivados en el grupo de tratamiento
no tendrían contrapartes en el grupo de comparación, de modo que
no sería posible estimar el impacto de la formación en ese segmento de
maestros motivados.
Cuando hay incumplimiento en cualquiera de los dos lados, debería
pensarse detenidamente en qué tipo de efecto de tratamiento se estima y
cómo interpretarlo. Una primera opción consiste en calcular una compa-
ración del grupo originalmente asignado al tratamiento con el grupo origi-
nalmente asignado a la comparación; esto dará la estimación de la ITT. La
ITT compara a aquellos a quienes se pretende tratar (los asignados al
grupo de tratamiento) con aquellos que se intenta no tratar (los asignados
al grupo de comparación). Si el incumplimiento se produce solo del lado
del tratamiento, puede ser una medida de impacto interesante y relevante,
porque en cualquier caso la mayoría de los responsables de las políticas
y administradores de programa solo pueden ofrecer un programa y no
pueden obligar a su población designada a aceptar el mismo.
En el ejemplo de la formación docente, puede que el gobierno quiera
conocer el impacto promedio del programa en todos los maestros asignados,
aunque algunos de ellos no asistan al curso. Esto se debe a que, aunque el
gobierno amplíe el programa, es probable que haya maestros que nunca
asistirán. Sin embargo, si hay incumplimiento en el lado de la comparación,
la estimación de la ITT no es tan esclarecedora. En el caso de la formación
docente, dado que el grupo de comparación incluía a maestros formados,
el resultado promedio en el grupo de comparación se ha visto afectado por
el tratamiento. Supóngase que el efecto de la formación docente en los resul-
tados es positivo. Si aquellos que incumplieron en el grupo de comparación
son los maestros más motivados y los que más se benefician de la capacita-
ción, el resultado promedio para el grupo de comparación tendrá un sesgo
positivo (porque los maestros motivados del grupo de comparación que
recibieron capacitación harán subir el resultado promedio) y la estimación
ITT tendrá un sesgo negativo (dado que se trata de la diferencia entre los
resultados promedio en el grupo de tratamiento y de comparación).
En estas circunstancias de no cumplimiento, una segunda opción
consiste en estimar lo que se conoce como el efecto local promedio del
tratamiento (LATE, por sus siglas en inglés, local average treatment effect).
El LATE debe ser interpretado con cuidado, ya que representa los efectos
del programa solo para un subgrupo específico de la población. En particular,
cuando hay incumplimiento en el grupo de tratamiento y en el de
comparación, el LATE es el impacto en el subgrupo de cumplidores. En el
ejemplo de la formación docente, si hay incumplimiento en ambos grupos,
la estimación LATE es válida solo para los maestros del grupo de trata-
miento que se inscribieron en el programa y que no se habrían inscrito si
hubieran sido asignados al grupo de comparación.
A continuación, se explicará cómo estimar el LATE y, algo que es igual de
importante, cómo interpretar los resultados. Los principios para estimar el
LATE se aplican cuando hay incumplimiento en el grupo de tratamiento, en
el de comparación, o en ambos al mismo tiempo. El TOT es simplemente un
LATE en el caso más específico en que hay incumplimiento solamente en el
grupo de tratamiento. Por lo tanto, el resto de este capítulo se enfoca en
cómo estimar el LATE.
Asignación aleatoria de un programa y aceptación final
Imagínese que se debe evaluar el impacto de un programa de formación

para el empleo en los salarios de los individuos. El programa se asigna de
forma aleatoria a nivel individual. El grupo de tratamiento recibe el pro-
grama, mientras que el grupo de comparación no lo recibe. Lo más probable
es que se encuentren tres tipos de individuos en la población:
 Inscritos si se lo ofrecen. Son los individuos que cumplen con su asigna-
ción. Si se les asigna al grupo de tratamiento (asignados al programa),
lo aceptarán y se inscribirán. Si se les asigna al grupo de comparación
(no asignados al programa), no se inscriben.
 Nuncas. Son los individuos que jamás se inscriben ni aceptan el programa,
aunque se les asigne al grupo de tratamiento. Si en efecto se les asigna a
este último, serán incumplidores.
 Siempres. Estos individuos encontrarán una manera de inscribirse en el
programa o aceptarlo, aunque se les asigne al grupo de comparación. Si en
efecto son asignados al grupo de comparación, serán incumplidores.
En el contexto de un programa de formación laboral, el grupo de los
Nuncas puede estar formado por personas no motivadas que, aunque se
les asigne un lugar en el curso, no se presentan. En cambio, los del grupo
de los Siempres están tan motivados que encuentran una manera de entrar
en el programa aunque originalmente se les haya asignado al grupo de
comparación. El grupo de Inscritos si se lo ofrecen son los que se anotan en
el curso si son asignados a él, pero no buscan inscribirse si son asignados
al grupo de comparación.
El gráfico 5.1 presenta la asignación aleatoria del programa y de la
inscripción final, o aceptación, cuando los tipos Inscritos si se lo ofrecen,
Nuncas y Siempres están presentes. Supóngase que la población se com-
pone de un 80% de Inscritos si se lo ofrecen, 10% de Nuncas y 10% de
Siempres. Si se toma una muestra aleatoria de la población para la mues-
tra de evaluación, dicha muestra tendrá también alrededor de un 80% de
Inscritos si se lo ofrecen, 10% de Nuncas y 10% de Siempres. Luego, si la
muestra de evaluación se asigna de manera aleatoria a un grupo de trata-
miento y a un grupo de comparación, una vez más debería haber cerca de
un 80% de Inscritos si se lo ofrecen, 10% de Nuncas y 10% de Siempres en
ambos grupos. En el grupo asignado al tratamiento, se inscribirán los
individuos Inscritos si se lo ofrecen y Siempres, y solo el grupo de Nuncas
permanecerá al margen. En el grupo de comparación, los individuos de
Siempres se inscribirán, mientras que los grupos de Inscritos si se lo ofre-
cen y Nuncas permanecerán fuera. Es importante recordar que si bien se
sabe que en la población existen estos tres tipos de individuos, no es
posible necesariamente distinguir el tipo de un individuo hasta que se
observan ciertas conductas. En el grupo de tratamiento, se podrá identi-
ficar a los tipos de Nuncas cuando no se inscriben, pero no se podrá dis-
tinguir entre los Inscritos si se lo ofrecen y los Siempres, dado que ambos
tipos se inscribirán. En el grupo de comparación, se podrá identificar a
Gráfico 5.1 Asignación aleatoria con cumplimiento imperfecto
1. Definir las unidades elegibles 2. Seleccionar la muestra 3. Asignar aleatoriamente 4. Inscripción

de evaluación al tratamiento
Nunca Solo se Siempre Validez externa Validez interna se

se inscribe inscribe
inscribe si es
asignado

los Siempres cuando se inscriben, pero no se podrá distinguir entre los
Inscritos si se lo ofrecen y los Nuncas, dado que ninguno de los dos tipos
se inscribirá.
La estimación de impacto bajo asignación aleatoria con

cumplimiento imperfecto
Después de establecer la diferencia entre asignar un programa y la

inscripción o aceptación en la práctica, se estimará el LATE del programa.
Esta estimación se lleva a cabo en dos pasos, los cuales se ilustran en el
gráfico 5.2.2
Para estimar los impactos del programa bajo la asignación aleatoria con
cumplimiento imperfecto, primero se estima el impacto de la ITT. Se debe
recordar que se trata solo de la diferencia en el indicador de resultados (Y)
Gráfico 5.2 Estimación del efecto local promedio del tratamiento bajo
asignación aleatoria con cumplimiento imperfecto
Grupo asignado Grupo no asignado

Impacto
al tratamiento al tratamiento
Porcentaje inscrito = 90% Porcentaje inscrito = 10%  porcentaje de inscritos = 80%

Media Y para los asignados a Media Y para los no Y = ITT = 40
tratamiento = 110 asignados a tratamiento = 70 LATE = 40%/80% = 50
Nunca se
inscribe
Solo se
inscribe
si es
asignado
Siempre se
inscribe
Nota: La estimación de la intención de tratar (ITT) se obtiene comparando los resultados de los
individuos asignados al grupo de tratamiento con los de aquellos asignados al grupo de comparación,
independientemente de la inscripción en la práctica. La estimación del efecto local promedio del trata-
miento (LATE) es el impacto del programa en los que se inscriben solo si son asignados al programa
(Inscritos si se lo ofrecen). La estimación LATE no proporciona el impacto del programa en aquellos
que nunca se inscriben (Nuncas) o en aquellos que siempre se inscriben (Siempres).
 = impacto causal; Y = resultado.

para el grupo que se asigna al tratamiento y el mismo indicador para el
grupo al que no se asigna tratamiento. Por ejemplo, si el salario medio (Y)
del grupo de tratamiento es US$110 y el salario medio del grupo de compa-
ración es US$70, la estimación de la ITT del impacto sería de US$40 (US$110
menos US$70).
En segundo lugar, habría que recuperar la estimación del LATE para el
grupo de Inscritos si se lo ofrecen de la estimación ITT. Para esto, se debe
identificar de dónde proviene la diferencia de US$40. Se procede por
eliminación. Primero, se sabe que la diferencia no puede ser causada por
diferencias entre las personas que nunca se inscriben (los Nuncas) en los
grupos de tratamiento y de comparación. Esto se debe a que los Nuncas
jamás se inscriben en el programa, de modo que para ellos es igual estar
en el grupo de tratamiento que en el de comparación. En segundo lugar,
se sabe que la diferencia de US$40 no puede ser producida por diferencias
entre los individuos de Siempres en los grupos de tratamiento y de compa-
ración porque estos siempre se anotan en el programa. Para ellos tampoco
hay diferencia entre estar en el grupo de tratamiento o el grupo de compa-
ración. Por lo tanto, la diferencia en los resultados entre ambos grupos
debe necesariamente provenir del efecto del programa en el único grupo
afectado por su asignación al grupo de tratamiento o de comparación, es
decir, el grupo de Inscritos si se lo ofrecen. Si se puede identificar a los
Inscritos si se lo ofrecen en ambos grupos, será fácil estimar el impacto del
programa en ellos.
En realidad, aunque se sabe que estos tres tipos de individuos existen
en la población, no se puede separar a los individuos en función de si son
Inscritos si se lo ofrecen, Nuncas o Siempres. En el grupo que fue asignado al
tratamiento, se puede identificar a los Nuncas (porque no se han inscrito),
pero no se puede diferenciar entre los Siempres y los Inscritos si se lo ofrecen
(porque ambos están inscritos). En el grupo de comparación, se puede iden-
tificar el grupo de Siempres (porque se inscriben en el programa), pero no es
posible diferenciar entre los Nuncas y los Inscritos si se lo ofrecen.
Sin embargo, una vez que se observa que el 90% de las unidades en el
grupo asignado al tratamiento en efecto se inscribe, se puede deducir que
el 10% de las unidades de nuestra población debe estar formada Nuncas
(es decir, el porcentaje de individuos del grupo asignados al tratamiento que
no se inscribieron). Además, si se observa que el 10% de las unidades del
grupo de comparación se inscribe, se sabe que el 10% son Siempres (una vez
más, el porcentaje de individuos de nuestro grupo que no fue asignado al
tratamiento y que sí se inscribió). Esto deja al 80% de las unidades en el
grupo de Inscritos si se lo ofrecen. Se sabe que el impacto de US$40 proviene
de una diferencia en la inscripción en el 80% de las unidades de la muestra
que corresponde a Inscritos si se lo ofrecen. Si el 80% de las unidades es
responsable de un impacto promedio de US$40 en el conjunto del grupo
asignado al tratamiento, el impacto en ese 80% de Inscritos si se lo ofrecen
debe ser 40/0,8, o US$50. Dicho de otra manera, el impacto del programa
para los Inscritos si se lo ofrecen es de US$50, pero cuando este impacto se
distribuye en el conjunto del grupo asignado al tratamiento, el efecto pro-
medio se diluye debido al 20% que no cumplió con la asignación aleatoria
original.
Recuérdese que uno de los problemas básicos de la autoselección en los
programas es que no siempre se puede saber por qué algunas personas deci-
den participar y otras no. Cuando se lleva a cabo una evaluación donde las
unidades están asignadas de forma aleatoria, pero la participación en la
práctica es voluntaria o existe una forma en que las unidades del grupo de
comparación participen en el programa, se presenta un problema similar, a
saber, que no siempre se entenderá la conducta que determina si un indivi-
duo se comporta como un Nunca, un Siempre, o un Inscrito si se lo ofrecen.
Sin embargo, si la falta de cumplimiento no es demasiado severo, la asigna-
ción aleatoria sigue proporcionando un instrumento útil para la evaluación
del impacto. El aspecto negativo de la asignación aleatoria con cumplimiento
imperfecto es que esta estimación de impacto ya no es válida para el con-
junto de la población. En cambio, la estimación debería interpretarse como
una estimación local que se aplica solo a un subgrupo específico dentro de la
población designada, los Inscritos si se lo ofrecen.
La asignación aleatoria de un programa tiene dos características impor-
tantes que permiten estimar el impacto cuando hay cumplimiento imper-
fecto (véase el recuadro 5.2):
1. Puede servir para predecir la inscripción en el programa si la mayoría de

las personas se comportan como Inscritos si se lo ofrecen, y se inscriben en
el programa cuando se les asigna al tratamiento y no se inscriben cuando
no se les asigna.
2. Dado que los dos grupos (asignados y no asignados al tratamiento)
se generan mediante un proceso aleatorio, las características de los
individuos en los dos grupos no están correlacionadas con ningún otro
factor –como la habilidad o la motivación– que pueda influir también en
los resultados (Y).
En términos estadísticos, la asignación aleatoria sirve como VI. Se trata de

una variable que predice la inscripción real de unidades en un programa,
pero que no está relacionada con otras características de los individuos
que puedan estar vinculadas a los resultados. Aunque en parte la decisión de
los individuos de inscribirse en un programa no puede estar controlada
por los administradores del programa, otra parte de la decisión sí está bajo
Recuadro 5.2: Variables instrumentales para lidiar con la falta de
cumplimiento en un programa de vales escolares en Colombia
El Programa de Ampliación de Cobertura Hubo cierto incumplimiento con el diseño
de la Educación Secundaria (PACES), en aleatorio, ya que alrededor del 90% de los
Colombia, suministró vales a más de ganadores del sorteo habían usado el vale
125.000 estudiantes para cubrir algo más de u otra forma de beca, y el 24% de los
la mitad del costo de asistencia a escuelas perdedores del sorteo habían recibido becas.
secundarias privadas. Dado el presupuesto Utilizando nuestra terminología, la población
limitado del programa, los vales se asigna- debe haber contenido un 10% de Nuncas,
ron mediante sorteo. Angrist et al. (2002) un 24% de Siempres y un 66% de Inscritos
aprovecharon este tratamiento asignado de si se lo ofrecen. Angrist et al. (2002) también
manera aleatoria para determinar el efecto utilizaron la asignación original, o la condición
del programa sobre los resultados educati- del ganador o perdedor del sorteo de los
vos y sociales. alumnos, como una variable instrumental
Angrist et al. (2002) observaron que los para estimar el tratamiento en los tratados
ganadores del sorteo tenían un 10% más de (TOT), la recepción real de la beca. Por último,
probabilidades de terminar el octavo grado y pudieron efectuar un análisis de costo-
registraron una desviación estándar de 0,2 beneficio para entender mejor el impacto del
puntos más en las pruebas estandarizadas programa de vales tanto en los gastos de los
tres años después del sorteo inicial.También hogares como del gobierno. Los investigado-
observaron que los efectos educativos res llegaron a la conclusión de que los costos
fueron mayores en las niñas que los niños. sociales totales del programa eran pequeños
Luego examinaron el impacto del programa y se veían compensados por los retornos
en varios resultados no educativos y previstos para los participantes y sus fami-
observaron que era menos probable que los lias, lo que sugiere que los programas orien-
ganadores del sorteo estuvieran casados y tados a la demanda, como PACES, pueden
que trabajaban alrededor de 1,2 horas ser una solución costo-efectiva para aumen-
menos por semana. tar los logros educativos.
Fuente: Angrist et al. (2002).
su control. Concretamente, la parte de la decisión que puede controlarse es

la asignación a los grupos de tratamiento y comparación. En la medida en
que la asignación a los grupos de tratamiento y de comparación predice la
inscripción final en el programa, la asignación aleatoria se puede usar como
un “instrumento” para predecir la inscripción final. Tener esta VI permite
recuperar las estimaciones del LATE de las estimaciones del efecto de ITT
para el tipo de unidades Inscritos si se lo ofrecen.
Una variable VI debe satisfacer dos condiciones básicas:
1. No debería estar correlacionada con las características de los grupos de
tratamiento y de comparación. Esto se consigue asignando el tratamiento
aleatoriamente a las unidades en la muestra de evaluación. Esto se
conoce como exogeneidad. Es importante que la VI no influya directa-
mente en el resultado de interés. Los impactos deben ser causados úni-
camente a través del programa que nos interesa evaluar.
2. Debe influir en las tasas de participación de los grupos de tratamiento
y comparación de manera diferente. Normalmente se piensa en aumen-
tar la participación en el grupo de tratamiento. Esto se puede verificar
constatando que la participación es más alta en el grupo de tratamiento
que en el de comparación. Esta condición se conoce como relevancia.
Interpretación de la estimación del efecto promedio del

tratamiento local
La diferencia entre la estimación de un ATE y la estimación de un LATE es

especialmente importante cuando se trata de interpretar los resultados de
una evaluación. Piénsese sistemáticamente en cómo interpretar una esti-
mación LATE. En primer lugar, debe reconocerse que los individuos que
cumplen en un programa (el tipo Inscritos si se lo ofrecen) son diferentes de
los individuos que no cumplen (los tipos Nuncas y Siempres). Concretamente,
en el grupo de tratamiento, los no cumplidores/no participantes (Nuncas)
pueden ser aquellos que esperan ganar poco con la intervención. En el
grupo de comparación, los no cumplidores/participantes (Siempres) pro-
bablemente constituyan el grupo de individuos que esperan el mayor bene-
ficio de participar. En el ejemplo de la formación docente, los maestros
asignados a la capacitación pero que deciden no participar (el tipo Nuncas)
pueden ser aquellos que creen que no necesitan formación, maestros con
un mayor costo de oportunidad del tiempo (por ejemplo, porque tienen un
segundo empleo o porque tienen que cuidar de sus hijos), o maestros regi-
dos por una supervisión laxa, que pueden dejar de asistir sin tener proble-
mas. Por otro lado, los docentes asignados al grupo de comparación pero
que se inscriben de todas maneras (el tipo Siempres) pueden ser aquellos
que creen que necesitan formación, maestros que no tienen hijos que cui-
dar o maestros con un director estricto que insiste en que todos tienen que
recibir capacitación.
En segundo lugar, se sabe que la estimación LATE proporciona el
impacto para un subgrupo particular de la población: tiene en cuenta solo
al subgrupo que no se ve afectado por ningún tipo de incumplimiento. En
otras palabras, tiene en cuenta solo el tipo Inscritos si se lo ofrecen. Dado
que el tipo Inscritos si se lo ofrecen es diferente de los Nuncas y de los
Siempres, el impacto que se halla a través de la estimación LATE no se
aplica a los tipos Nuncas o Siempres. Por ejemplo, si el ministerio de
Educación decidiera implementar una segunda ronda de capacitación y
pudiera obligar a los maestros Nuncas que no recibieron formación en la
primera ronda a recibirla en esta ocasión, no se sabe si esos maestros ten-
drían efectos menores, iguales o mayores en comparación con los partici-
pantes de la primera ronda. De la misma manera, si los docentes más auto
motivados siempre encuentran una manera de seguir la capacitándose a
pesar de ser asignados de forma aleatoria al grupo de comparación, el
LATE para los cumplidores de los grupos tanto de tratamiento como de
comparación no proporciona información acerca del impacto del pro-
grama para los maestros sumamente motivados (los Siempres). La estima-
ción del LATE se aplica únicamente a un subconjunto específico de la
población, a saber, aquellos tipos que no están afectados por la falta de
cumplimiento –es decir, solo el tipo cumplidor– y no debería extrapolarse
a otros subconjuntos de la población.
Promoción aleatoria como variable instrumental
En la sección anterior, se expuso cómo estimar el impacto sobre la base de la

asignación aleatoria del tratamiento, aun cuando el cumplimiento con los
grupos de tratamiento y comparación originalmente asignados sea imper-
fecto. A continuación, se propone un enfoque muy similar que se puede apli-
car a la evaluación de programas que tienen elegibilidad universal o
inscripción abierta, o en los que el administrador del programa no puede
controlar quién participa y quién no.
Este enfoque, denominado promoción aleatoria, proporciona un estí-
mulo más para que un conjunto aleatorio de unidades se inscriba en el
programa. Esta promoción aleatoria sirve como VI. Sirve como una fuente
externa de variación que afecta la probabilidad de recibir tratamiento,
pero no está relacionada de ninguna forma con las características de los
participantes.
Los programas de participación voluntaria suelen permitir que los indi-
viduos que se interesan en el programa decidan por sí mismos si quieren
inscribirse y participar. Piénsese una vez más en el programa de formación
laboral tratado anteriormente, aunque esta vez la asignación aleatoria no es
posible y cualquier individuo que desee inscribirse en el programa puede
hacerlo. De manera muy parecida a la del ejemplo anterior, se prevé encon-
trar diferentes tipos de personas: cumplidores, un grupo de Siempres y un
grupo de Nuncas.
 Siempres. Los individuos que siempre se inscribirán en el programa.

 Nuncas. Los individuos que jamás se inscribirán.

 Cumplidores o Inscritos si se promueve. En este contexto cualquier indivi-
duo que quiera inscribirse en el programa puede hacerlo. Sin embargo,
algunos individuos pueden estar interesados en inscribirse, pero por
diversos motivos no tienen suficiente información o el incentivo correcto
para hacerlo. En este caso, los cumplidores son aquellos que se inscriben
si se promueve. Se trata de un grupo de individuos que se anotan en el
programa solo si se les ofrece un incentivo adicional, un estímulo o moti-
vación que los impulse a participar. Sin este estímulo adicional, los
Inscritos si se promueve sencillamente quedarían fuera del programa.
Para volver al ejemplo de la formación para el empleo, si la agencia que orga-

niza la capacitación está bien financiada y tiene suficiente capacidad, puede
que despliegue una política de “puertas abiertas” y trate a todas las personas
desempleadas que quieran participar. Sin embargo, es poco probable que
todas las personas desempleadas quieran participar o incluso que sepan que
el programa existe. Puede que algunas personas desempleadas tengan repa-
ros para inscribirse porque saben muy poco acerca del contenido de la for-
mación y les cuesta obtener información adicional. Supóngase que la agencia
de formación para el empleo contrata a un trabajador de extensión comuni-
taria para que se pasee por la ciudad a fin de alentar a un grupo de personas
desempleadas seleccionado de forma aleatoria para que se inscriban en el
programa de formación laboral. Con la lista de personas desempleadas ele-
gidas de manera aleatoria, llama a sus puertas, describe el programa de for-
mación y les ofrece ayuda para inscribirse en ese mismo momento. La visita
es una forma de promoción o estímulo para participar en el programa. Desde
luego, no se puede obligar a nadie a participar. Además, las personas desem-
pleadas que el trabajador de extensión comunitaria no visita también pue-
den inscribirse, aunque tendrán que ir personalmente a la agencia para
hacerlo. Por lo tanto, ahora hay dos grupos de personas desempleadas: aque-
llas que fueron asignadas de modo aleatorio a una visita del trabajador
comunitario y aquellas que aleatoriamente no fueron visitadas. Si el esfuerzo
de extensión es efectivo, la tasa de inscripción entre las personas desem-
pleadas que fueron visitadas debería ser superior a la tasa entre las personas
desempleadas que no fueron visitadas.
Piénsese ahora en cómo se puede evaluar este programa de formación
laboral. No se puede simplemente comparar a las personas desempleadas
que se inscriben con aquellas que no se inscriben. Esto se debe a que los
desempleados que se inscriben probablemente sean muy diferentes de
aquellos que no lo hacen, tanto en sus características observables como no
observables. Puede que tengan un nivel educativo mayor o menor (esto
puede observarse con facilidad) y probablemente estén más motivados y
deseosos de encontrar un empleo (esto es difícil de observar y medir).

Sin embargo, hay una variación adicional que se puede explotar para
encontrar un grupo de comparación válido. Piénsese si se puede comparar
el grupo de personas que fueron asignadas aleatoriamente para recibir una
visita del trabajador de extensión con el grupo que no fue visitado. Dado que
los grupos con promoción y sin promoción fueron determinados de forma
aleatoria, ambos contienen composiciones idénticas de personas muy moti-
vadas (Siempres) que se inscribirán independientemente de que el trabaja-
dor de extensión llame a su puerta o no. Ambos grupos también contienen
personas no motivadas (Nuncas) que no se inscribirán en el programa, a
pesar de los esfuerzos del trabajador de extensión. Por último, si el trabaja-
dor de extensión es efectivo motivando a las personas a inscribirse, algunos
(Inscritos si se promueve) se anotarán en el programa si el trabajador de
extensión los visita, pero no lo harán si no reciben dicha visita.
Dado que el trabajador de extensión visitó a un grupo de individuos
asignados de manera aleatoria, puede derivarse una estimación LATE,
como se señalaba anteriormente. La única diferencia es que en lugar de
asignar el programa de modo aleatorio, se lo está promoviendo aleatoria-
mente. Siempre que los Inscritos si se promueve (que se inscriben cuando
se hace contacto con ellos pero no se anotan si no hay contacto) sean lo
suficientemente numerosos, entre el grupo con la promoción y el grupo sin
la promoción habrá variaciones que permitirán identificar el impacto de la
formación en los Inscritos si se promueve. En lugar de cumplir la asigna-
ción del tratamiento, los Inscritos si se promueve ahora cumplen con la
promoción.
Para que esta estrategia funcione, la actividad de promoción tiene que ser
efectiva y aumentar la inscripción considerablemente en el grupo de
Inscritos si se promueve. Al mismo tiempo, las actividades de promoción en
sí mismas no deberían influir en los resultados finales de interés (como los
ingresos), dado que al final lo que interesa sobre todo es estimar el impacto
del programa de formación y no el impacto de la estrategia de promoción en
los resultados finales. Por ejemplo, si el trabajador de extensión ofreció
grandes cantidades de dinero a los desempleados para conseguir que se ins-
cribieran, sería difícil saber si algún cambio posterior en los ingresos fue
causado por la formación o por la actividad de promoción.
La promoción aleatoria es una estrategia creativa que genera el equivalente
de un grupo de comparación para los fines de la evaluación de impacto. Se
puede usar cuando un programa tiene inscripción abierta y es posible organi-
zar una campaña de promoción destinada a una muestra aleatoria de la pobla-
ción de interés. La promoción aleatoria es otro ejemplo de VI que permite
evaluar el impacto de manera no sesgada. Sin embargo, una vez más, como
sucede con la asignación aleatoria con cumplimiento imperfecto, las evalua-
ciones de impacto que dependen de la promoción aleatoria proporcionan una
estimación LATE: una estimación local del efecto en un subgrupo específico
de la población, el grupo de Inscritos si se promueve. Como sucedió antes, esta
estimación LATE no puede extrapolarse directamente al conjunto de la
población, dado que los grupos de Siempres y Nuncas probablemente sean
bastante diferentes del grupo de Inscritos si se promueve.
¿Ha dicho “promoción”?

Concepto clave
La promoción aleatoria pretende aumentar la aceptación de un programa La promoción aleatoria
voluntario en una submuestra de la población seleccionada aleatoriamente. es un método de
La promoción puede adoptar diversas formas. Por ejemplo, puede que se variables instrumenta-
decida iniciar una campaña de información para llegar a aquellas personas les que permite
que no se han inscrito porque no lo sabían o porque no entienden cabalmente estimar el impacto de
manera no sesgada.
el contenido del programa. También, se pueden ofrecer incentivos para ins-
Asigna aleatoriamente
cribirse, como pequeños obsequios o premios, o facilitando el transporte. una promoción o
Como se señaló de manera más general en el caso de las VI, para que el incentivo para
método de promoción aleatoria genere una estimación válida del impacto participar en el
del programa debe cumplirse una serie de condiciones: programa. Es una
estrategia útil para
1. Los grupos que son objeto y no objeto de la promoción deben ser simila- evaluar programas que
res. Es decir, las características promedio de los dos grupos deben ser están abiertos a todos
los que sean elegibles.
estadísticamente equivalentes. Esto se consigue asignando de forma
aleatoria las actividades de extensión o promoción entre las unidades de
la muestra de evaluación.
2. La propia promoción no debería influir directamente en los resultados de
interés. Este es un requisito crítico, de modo que se pueda saber que los
cambios en los resultados de interés son provocados por el programa
mismo y no por la promoción.
3. La campaña de promoción debe alterar considerablemente las tasas de
inscripción en el grupo objeto de la promoción en relación con el grupo
que no ha sido objeto de la misma. Normalmente, se piensa en aumentar
la inscripción mediante la promoción. Esto se puede verificar consta-
tando que las tasas de inscripción sean más altas en el grupo que es objeto
de la promoción que en el grupo que no lo es.
El proceso de promoción aleatoria
El proceso de promoción aleatoria se presenta en el gráfico 5.3. Al igual

que con los métodos anteriores, se comienza con la población de unidades
elegibles para el programa. A diferencia de la asignación aleatoria, ya no
se puede elegir aleatoriamente quién recibirá el programa y quién no lo
Gráfico 5.3 Proceso de promoción aleatoria
1. Definir las unidades elegibles 2. Seleccionar la muestra 3. Realizar la promoción 4. Inscripción

de evaluación aleatoria del programa
Sin promoción
Promoción
Nunca Inscritos Siempre Validez externa Validez interna si

son
objeto de la
promoción
recibirá, porque el programa es totalmente voluntario. Sin embargo, en la

población de unidades elegibles, habrá tres tipos de unidades:
 Siempres. Aquellos que siempre quieren inscribirse en el programa.
 Inscritos si se promueve. Aquellos que se inscriben en el programa solo si
son objeto de la promoción.
 Nuncas. Aquellos que jamás se inscriben en el programa, independiente-
mente de que sean objeto de la promoción o no.
Una vez más, nótese que ser un Siempre, un Inscrito si se promueve o un
Nunca es una característica intrínseca de las unidades que no se puede medir
fácilmente con un equipo de evaluación del programa porque está relacio-
nado con factores como la motivación, la inteligencia y la información.
Una vez que se define la población elegible, el paso siguiente consiste en
seleccionar de manera aleatoria una muestra de la población que formará
parte de la evaluación. Estas son las unidades sobre las que se recopilan
datos. En algunos casos, por ejemplo, cuando se dispone de datos sobre
todas las unidades elegibles, se puede incluir al conjunto de la población en
la muestra de evaluación.
Una vez que se ha definido la muestra de evaluación, la promoción
aleatoria asigna aleatoriamente la muestra mencionada en el grupo
objeto de la promoción y un grupo que no es objeto de ella. Dado que
tanto los miembros del grupo con promoción como los del grupo sin pro-
moción se escogen de forma aleatoria, ambos grupos compartirán las
características de la muestra de evaluación general, que serán equivalen-
tes a las características de la población de las unidades elegibles. Por lo
tanto, el grupo que es objeto de la promoción y el grupo que no lo es
tendrán características similares.
Después de acabar la campaña de promoción, pueden observarse las
tasas de inscripción en ambos grupos. En el grupo sin promoción, se inscri-
birán solo los Siempres. Aunque se sabe qué unidades son Siempres en el
grupo sin promoción, en este grupo no se podrá distinguir entre los Nuncas
y los Inscritos si se promueve. En cambio, en el grupo con promoción se ins-
cribirán tanto los Inscritos si se promueve como los Siempres, mientras que
los Nuncas no se anotarán. Por ello, en el grupo con promoción se podrá
identificar al grupo de Nuncas, pero no se podrá distinguir entre los Inscritos
si se promueve y los Siempres.
Estimación de impacto bajo la promoción aleatoria
Imagínese que en un grupo de 10 individuos la campaña de promoción

aumenta la inscripción de un 30% en el grupo sin promoción (3 Siempres) a
un 80% en el grupo con promoción (3 Siempres y 5 Inscritos si se promueve).
Supóngase que el resultado promedio de todos los individuos del grupo sin
promoción (10 individuos) es 70, y que el resultado promedio de los indivi-
duos en el grupo con promoción (10 individuos) es 110 (gráfico 5.4). ¿Cuál
sería el impacto del programa?
Gráfico 5.4 Estimación del efecto local promedio del tratamiento bajo la
promoción aleatoria
Grupo con promoción Grupo sin promoción Impacto
Porcentaje de inscritos = 80% Porcentaje de inscritos = 30%  porcentaje de inscritos = 50%

Media Y para grupo con Media Y para grupo sin  Y = 40
promoción = 110 promoción = 70 LATE = 40%/50% = 80
Nunca
Inscrito si
es objeto
de la
promoción
Siempre
Nota: Las figuras que aparecen con el fondo sombreado corresponden a los que se inscriben.
 = impacto causal; Y = resultado.

En primer lugar, calcúlese la simple diferencia de los resultados entre los
grupos con promoción y sin promoción, que es de 40 (110 - 70). Se sabe que
ningún elemento de esta diferencia de 40 proviene de los Nuncas porque
estos no se inscriben en ningún grupo. También se sabe que ningún ele-
mento de la diferencia de 40 se debe a los Siempres porque estos se inscriben
en ambos grupos. Por lo tanto, toda la diferencia de 40 tendría que deberse
al grupo Inscritos si se promueve.
El segundo paso consiste en obtener la estimación LATE del programa de
los Inscritos si se promueve. Se sabe que la diferencia de 40 entre los grupos
con promoción y sin promoción puede atribuirse a los Inscritos si se pro-
mueve, que constituyen solo el 50% de la población. Para evaluar el efecto
promedio del programa en un cumplidor, se divide 40 por el porcentaje de
Inscritos si se promueve en la población. Aunque no se puede identificar
directamente a los Inscritos si se promueve, se puede deducir cuál debe ser
su porcentaje de la población, es decir, la diferencia en las tasas de inscrip-
ción de los grupos con promoción y sin promoción (50%, o 0,5). Por lo tanto,
la estimación del efecto local promedio del tratamiento del programa del
grupo Inscritos si se promueve es 40/0,5 = 80.
Dado que la promoción se asigna de forma aleatoria, los grupos con pro-
moción y sin promoción tienen iguales características. Por lo tanto, las dife-
rencias que se observan en los resultados promedio entre los dos grupos
tienen que deberse al hecho de que en el grupo con promoción los Inscritos
si se promueve se inscriben, mientras que en el grupo sin promoción no lo
hacen. Una vez más, los impactos estimados de los Inscritos si se promueve
no deberían extrapolarse directamente a otros grupos, puesto que es proba-
ble que sean bastante diferentes de los grupos que se inscriben Nunca y
Siempre. El recuadro 5.3 presenta un ejemplo de promoción aleatoria para
un proyecto en Bolivia.
Recuadro 5.3: Promoción de inversiones en infraestructura

educativa en Bolivia
En 1991 Bolivia institucionalizó y amplió un incorporó una evaluación de impacto al
exitoso Fondo de Inversión Social (FIS) que diseño del programa.
ofrecía financiamiento a comunidades Como parte de la evaluación de impacto
rurales para infraestructura de educación, del componente educativo, seseleccionaron
salud y agua. El Banco Mundial, que aleatoriamente comunidades de la región
contribuía al financiamiento del fondo, de Chaco para la promoción activa del FIS.

Recuadro 5.3: Promoción de inversiones en infraestructura educativa en Bolivia (continúa)
Estas recibieron visitas adicionales de la electricidad, las instalaciones de sanea-
incentivos para participar. El programa miento, el número de libros de texto por estaba
abierto a todas las comunidades estudiante y la proporción de estudiantes
elegibles en la región y estaba orientado a por profesor. Sin embargo, detectaron un la
demanda, ya que las comunidades debían escaso impacto en los resultados educati-
solicitar fondos para un proyecto específico. vos, con la excepción de un descenso de La
participación fue mayor entre las alrededor del 2,5% en la tasa de abandono
comunidades con promoción. escolar. Como consecuencia de estas obser-
Newman et al. (2002) usaron la promo- vaciones, el Ministerio de Educación y el FIS
ción aleatoria como variable instrumental. dedican ahora más atención y recursos al
Observaron que las inversiones en educa- software de la educación, y solo financian ción
lograron mejorar la calidad de ciertos mejoras de la infraestructura física cuando
aspectos de la infraestructura escolar, como forman parte de una intervención integral.
Fuente: Newman et al. (2002).
Evaluación de impacto del HISP: promoción aleatoria
A continuación, se procurará utilizar el método de promoción aleatoria

para evaluar el impacto del HISP. Supóngase que el ministerio de Salud
toma la decisión ejecutiva de que el subsidio de seguro de salud debería
estar disponible inmediatamente para cualquier hogar que quiera inscri-
birse. Nótese que se trata de un escenario diferente del caso de asigna-
ción aleatoria que se ha estudiado hasta ahora. Sin embargo, usted sabe
que en términos realistas esta ampliación a nivel nacional será progresiva
lo largo del tiempo, de modo que llega a un acuerdo para intentar acelerar
la inscripción en un subconjunto aleatorio de pueblos mediante una
campaña de promoción. En una submuestra aleatoria de los pueblos,
usted emprende un esfuerzo intensivo de promoción que incluye la
comunicación y el marketing social con el fin de crear conciencia de la
existencia del HISP. Las actividades de promoción están diseñadas cui-
dadosamente para evitar contenidos que puedan incentivar de forma
involuntaria cambios en otros comportamientos relacionados con la
salud, dado que esto invalidaría la promoción como VI. En cambio, la
promoción se concentra exclusivamente en aumentar la inscripción en el
HISP. Después de dos años de promoción y de implementación del pro-
grama, se observa que el 49,2% de los hogares de los pueblos que fueron

asignados aleatoriamente a la promoción se ha inscrito en el programa,
mientras que solo lo ha hecho un 8,4% de los hogares de los pueblos sin
promoción (cuadro 5.1).
Dado que los pueblos con promoción y sin promoción fueron asignados
aleatoriamente, se sabe que las características promedio de los dos grupos
deberían ser las mismas en ausencia de la promoción. Dicho supuesto
puede verificarse comparando los gastos básicos en salud (así como cual-
quier otra característica) de las dos poblaciones. Después de dos años de
implementación del programa, se observa que el gasto promedio en salud
en los pueblos con promoción es de US$14,97 versus US$18,85 en las zonas
sin promoción (una diferencia inferior a US$3,87). Sin embargo, dado que
la única diferencia entre los pueblos con promoción y sin promoción es
que la inscripción en el programa ha sido más alta en los pueblos con pro-
moción (gracias a la campaña de promoción), esta diferencia de US$3,87
en gastos de salud tiene que deberse al 40,78% adicional de hogares que se
inscribieron en los pueblos con promoción debido precisamente a la pro-
moción. Por lo tanto, hay que ajustar las diferencias en gastos sanitarios
para encontrar el impacto del programa en los Inscritos si se promueve.
Para esto, se divide la estimación de la ITT –es decir, la simple diferencia
entre los grupos con promoción y sin promoción– por el porcentaje de
Inscritos si se promueve: −3,87/0,4078 = US$9,49. Su colega, un especialista
en econometría que sugiere utilizar la promoción aleatoria como variable
instrumental, estima el impacto del programa mediante un procedimiento
de mínimos cuadrados en dos etapas (véase el manual técnico en línea en
Cuadro 5.1 Evaluación del HISP según la promoción aleatoria

Pueblos con Pueblos sin

promoción promoción Diferencia t-estadístico
Línea de
base: gasto
en salud de
los hogares 17,19 17,24 −0,05 −0,47
Encuesta de
seguimiento:
gasto en
salud de los
hogares 14,97 18,85 −3,87 −16,43
Participación
en el HISP 49,20% 8,42% 40,78% 49,85

Cuadro 5.2 Evaluación del HISP según la promoción aleatoria

Impacto estimado
sobre el gasto en −9,50** −9,74**
salud de los hogares (0,52) (0,46)
Nota: Los errores estándares se encuentran entre paréntesis.

www.worldbank.org/ieinpractice para más detalles sobre el enfoque eco-

nométrico para estimar los impactos con VI). Su colega encuentra los
resultados que aparecen en el cuadro 5.2. Este impacto estimado es válido
para aquellos hogares que se inscribieron en el programa debido a la pro-
moción, pero que de otra manera no se habrían inscrito: en otras palabras,
los Inscritos si se promueve.
Pregunta HISP 4
A. ¿Cuáles son las condiciones clave requeridas para aceptar los resulta-
dos de la evaluación de promoción aleatoria del HISP?
B. Sobre la base de estos resultados, ¿se debería ampliar el HISP a nivel
nacional?
Limitaciones del método de promoción aleatoria
La promoción aleatoria es una estrategia útil para evaluar el impacto de

programas voluntarios y programas con elegibilidad universal, sobre todo
porque no requiere la exclusión de ninguna unidad elegible. Sin embargo, el
enfoque tiene algunas limitaciones en comparación con la asignación alea-
toria del tratamiento.
En primer lugar, la estrategia de promoción debe ser efectiva. Si la cam-
paña de promoción no aumenta la inscripción, no aparecerá ninguna diferen-
cia entre los grupos con promoción y sin promoción, y no habrá nada que
comparar. Por lo tanto, es crucial diseñar cuidadosamente la campaña de pro-
moción y realizar una prueba piloto extensiva de la misma para asegurarse de
que será efectiva. El aspecto positivo es que el diseño de dicha campaña puede
ayudar a los administradores del programa enseñándoles cómo aumentar la
inscripción después de que haya concluido el período de evaluación.
En segundo lugar, el método de promoción aleatoria permite estimar el
impacto del programa solo para un subconjunto de la población de unidades
elegibles (un LATE). Concretamente, el impacto promedio local del programa
se estima a partir del grupo de individuos que se inscriben únicamente cuando
se les incentiva a hacerlo. Sin embargo, puede que los individuos de este grupo
tengan características muy diferentes de aquellos que siempre se inscriben o
nunca se inscriben. Por lo tanto, el efecto promedio del tratamiento para el
conjunto de la población puede ser distinto del efecto del tratamiento prome-
dio estimado para los individuos que participan solo cuando se les incentiva.
Una evaluación con promoción aleatoria no estimará los impactos en el grupo
de individuos que se inscriben en el programa sin ser incentivados. En algu-
nos casos, este grupo (los Siempres) puede ser precisamente el grupo que el
programa está diseñado para beneficiar. En este contexto, el diseño de promo-
ción aleatoria arrojará luz sobre los impactos esperados en nuevas poblacio-
nes que se inscribirían debido a la promoción adicional, pero no en cuanto a la
población que ya se ha inscrito por su propia iniciativa.
Lista de verificación: promoción aleatoria como

variable instrumental
La promoción aleatoria genera estimaciones válidas del contrafactual si la

campaña de promoción aumenta de forma considerable la aceptación del
programa sin influir directamente en los resultados de interés.
 Las características de línea de base, ¿están equilibradas entre las unida-
des que recibieron la campaña de promoción y aquellas que no la recibie-
ron? Compárense las características de línea de base de los dos grupos.
 La campaña de promoción, ¿ha influido de forma considerable en la acep-
tación del programa? Tendría que influir. Compárense las tasas de acep-
tación del programa en las submuestras con promoción y sin promoción.
 La campaña de promoción, ¿influye directamente en los resultados?
No tendría que influir. Esto no puede comprobarse directamente, de modo
que tiene que depender de la teoría, del sentido común y del conocimiento
adecuado del entorno de la evaluación de impacto como guía.
 Para material de apoyo del libro e hipervínculos a recursos adicionales,
se recomienda consultar el sitio web de la Evaluación de Impacto en la
Práctica (http://www.worldbank.org/ieinpractice).
 Para otros recursos sobre VI, véase el portal de evaluación del Banco
Interamericano de Desarrollo (BID) (http//:www.iadb.org/portalevaluacion).

Notas
1. En la ciencia médica, los pacientes del grupo de comparación suelen recibir
un placebo, es decir, una píldora edulcorada que no tendrá efecto en el
resultado previsto. Esto se hace con el fin de controlar mejor el efecto placebo,
es decir, los cambios potenciales en la conducta y los resultados que podrían
darse sencillamente por el acto de recibir un tratamiento, aunque el trata-
miento mismo sea inefectivo.
2. Estos dos pasos corresponden a la técnica econométrica de mínimos cuadrados
en dos etapas, que produce una estimación del efecto local promedio del
tratamiento.
Angrist, J., E. Bettinger, E. Bloom, E. King y M. Kremer. 2002. “Vouchers for Private
Schooling in Colombia: Evidence from a Randomized Natural Experiment.”
American Economic Review 92 (5): 1535–58.
Kearney, M. S. y P. B. Levine. 2015. “Early Childhood Education by MOOC: Lessons
from Sesame Street.” Documento de trabajo NBER 21229, National Bureau of
Economic Research, Cambridge, MA.
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. “An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund.” World Bank Economic Review 16 (2): 241–74.

CAPÍTULO 6
Diseño de regresión discontinua
Evaluación de programas que utilizan un índice

de elegibilidad
Los programas sociales a menudo utilizan un índice para decidir quién

tiene derecho a inscribirse en un programa y quién no. Por ejemplo, los
programas de lucha contra la pobreza suelen focalizarse en los hogares
pobres, identificados mediante una puntuación o un índice de la pobreza.
El índice de pobreza se puede basar en una fórmula que mide un conjunto
de activos básicos del hogar como factor aproximado (o estimativo) de sus
medios (como el ingreso, el consumo o el poder adquisitivo).1 Se clasifica a
los hogares con baja puntuación como pobres, y a los hogares con puntua-
ciones más altas se les considera relativamente acomodados. Los progra-
mas de lucha contra la pobreza suelen establecer un umbral o una
puntuación límite, por debajo del cual se determina la condición de
pobreza y la elegibilidad para el programa. El sistema de selección de
beneficiarios del gasto social en Colombia es un ejemplo de este tipo
de esquema (véase el recuadro 6.1). Las puntuaciones en las pruebas edu-
cativas constituyen otro ejemplo (recuadro 6.3). Se puede conceder la
admisión a la universidad a los individuos que obtienen los mejores resul-
tados en las pruebas estandarizadas, calificados desde el más bajo al más
alto. Si el número de becas es limitado, solo serán admitidos los alumnos
con puntuaciones por encima de un cierto umbral (como, por ejemplo, el
10% superior de los alumnos). En ambos ejemplos hay un índice de
125
Recuadro 6.1: Uso del diseño de regresión discontinua para
evaluar el impacto de la reducción de las tarifas escolares en
los índices de matriculación en Colombia
Barrera-Osorio, Linden y Urquiola (2007) uti- puntuación SISBEN en la línea de base;
lizaron un diseño de regresión discontinua en otras palabras, no hay “saltos” en las
(DRD) para evaluar el impacto de un pro- características en la puntuación SISBEN. En
grama para reducir las tarifas escolares en segundo lugar, los hogares en ambos lados
Colombia (Gratuidad) sobre los índices de de las puntuaciones límite tienen característi-
matriculación en los colegios de la ciudad cas similares, y generan grupos de compara-
de Bogotá. El programa definió su población ción creíbles. En tercer lugar, se disponía de
objetivo sobre la base del SISBEN, un índice una muestra grande de hogares. Por último,
continuo de pobreza cuyo valor está deter- el gobierno mantuvo en secreto la fórmula
minado por características de los hogares, utilizada para calcular el índice SISBEN, de
como la ubicación, los materiales de cons- modo que no se pudieran manipular las
trucción de la vivienda, los servicios de los puntuaciones.
que dispone, la demografía, la salud, la edu- Al usar el método DRD, los investigado-
cación, el ingreso y las ocupaciones de los res observaron que el programa tuvo un
miembros de la familia. El gobierno estable- impacto positivo significativo en los índices
ció dos puntuaciones límite en el índice de matriculación escolar. Concretamente, la
SISBEN. Así, los niños de los hogares con matriculación fue 3 puntos porcentuales
puntuaciones inferiores a la primera puntua- más alta en los alumnos de primaria de
ción límite eran elegibles para recibir educa- hogares con puntuaciones inferiores a la
ción gratuita entre los grados 1 y 11, los primera puntuación límite y 6 puntos por-
niños de los hogares cuyas puntuaciones se centuales más alta en los alumnos de
hallaban entre la primera y la segunda pun- secundaria de los hogares ubicados entre la
tuación eran elegibles para un subsidio del primera y la segunda puntuación límite. Este
50% en las tarifas para los grados 10 y 11, y estudio aporta evidencia sobre los benefi-
los niños de los hogares con puntuaciones cios de reducir los costos directos de la
superiores a la segunda puntuación no eran escolarización, sobre todo entre los alum-
elegibles para recibir educación gratuita ni nos en situación de riesgo. Sin embargo,
subsidios. sus autores también recomiendan una
Los autores utilizaron un DRD por cuatro investigación más detallada sobre las elasti-
motivos. En primer lugar, las características cidades con respecto al precio para funda-
del hogar, como el ingreso o el nivel educa- mentar mejor el diseño de los programas
tivo del jefe de familia, son continuos en la de subsidios como este.
Fuente: Barrera-Osorio, Linden y Urquiola (2007).

elegibilidad continuo, así como también un umbral o una puntuación
límite que determina quién es elegible y quién no lo es.
El diseño de regresión discontinua (DRD) es un método de evaluación de
impacto que se puede utilizar en programas que tienen un índice de elegibi-
lidad continuo con un umbral (puntuación límite) de elegibilidad definido
con claridad para determinar quién es elegible y quién no lo es. A fin de
aplicar un DRD, deben cumplirse las siguientes condiciones:
1. El índice debe clasificar a las personas o unidades de una manera conti-

nua o “fluida”. Índices como el de pobreza, las puntuaciones de las
pruebas estandarizadas o la edad tienen numerosos valores que se pue-
den ordenar de menor a mayor y, por lo tanto, se pueden considerar
continuos. En cambio, las variables con categorías discretas que solo
tienen unos pocos valores posibles o no se pueden ordenar, no se consi-
deran continuas. Ejemplos de esta última clase son la condición laboral
(empleado o desempleado), el nivel más alto de estudios alcanzado
(primario, secundario, universitario o posgrado), la propiedad de un
automóvil (sí o no) o el país de nacimiento.
2. El índice debe tener una puntuación límite claramente definida, es decir,

un punto por debajo o por encima del cual se clasifica a la población
como elegible para el programa. Por ejemplo, los hogares con un índice
de pobreza igual o menor a 50 sobre 100 se podrían clasificar como
pobres, los individuos mayores de 67 años se podrían clasificar como ele-
gibles para una jubilación, y los alumnos con una puntuación superior a
90 sobre 100 podrían considerarse elegibles para una beca. Las puntua-
ciones límite en estos ejemplos son 50, 67 y 90 respectivamente.
3. La puntuación límite debe ser única para el programa de interés, es decir, Concepto clave
aparte del programa que se evalúa, no debería haber otros programas que El diseño de regresión
utilicen la misma puntuación límite. Por ejemplo, si un índice de pobreza discontinua (DRD) es un
por debajo de 50 clasifica a un hogar para recibir una transferencia de método de evaluación de
efectivo, un seguro de salud y transporte público gratis, no se podría uti- impacto adecuado para
programas que utilizan
lizar el método DRD para estimar por sí solo el impacto del programa de
un índice continuo para
transferencias de efectivo. clasificar a los
participantes potenciales
4. La puntuación de un individuo o una unidad particular no puede ser y que tienen una
manipulada por los encuestadores, los beneficiarios potenciales, los puntuación límite en el
administradores del programa o los políticos. índice que determina si
los participantes
El DRD estima el impacto en torno a la puntuación límite de elegibilidad potenciales tienen
como la diferencia entre el resultado promedio de unidades del lado tratado derecho o no a
de la puntuación límite de elegibilidad y el resultado promedio de unidades beneficiarse del
en el lado no tratado (comparación) de la puntuación límite. programa.
Diseño de regresión discontinua 127

Piénsese en un programa agrícola cuyo fin es aumentar la producción
total de arroz subsidiando la compra de fertilizantes de los agricultores. El
programa está destinado a fincas pequeñas y medianas con menos de 50
hectáreas. Antes del comienzo del programa, se puede esperar que las fincas
más pequeñas tengan una producción menor que las grandes, como se
muestra en el gráfico 6.1, que ilustra el tamaño de la finca y la producción de
arroz. En este caso, la puntuación de elegibilidad es el número de hectáreas
de la finca, y la puntuación límite es de 50 hectáreas. Las reglas del pro-
grama establecen que las fincas por debajo de 50 hectáreas son elegibles
para recibir subsidios para fertilizantes, y las fincas de 50 o más hectáreas no
lo son. Entonces, se puede prever que participará del programa una canti-
dad de fincas de 48, 49 o incluso 49,9 hectáreas. Y habrá otro grupo con 50,
50,1 y 50,2 hectáreas que no participará del programa, porque esas fincas
superan la puntuación límite. Es probable que el grupo de fincas con 49,9
hectáreas sea muy similar al grupo de aquellas que tienen 50,1 hectáreas en
todos los aspectos, salvo que un grupo recibió el subsidio para fertilizantes y
el otro no. A medida que nos alejamos de la puntuación límite de elegibili-
dad, hay más diferencias entre las fincas elegibles. Sin embargo, la extensión
de las fincas es una buena medida de sus diferencias, y permite controlar por
una buena parte de esas diferencias.
Gráfico 6.1 Producción de arroz, fincas pequeñas vs. fincas grandes

(línea de base)
Producción de arroz (fanegas por hectárea)
20
19
18
17
16
15
20 30 40 50 60 70 80
Hectáreas de terreno
= producción de las fincas > 50 hectáreas

= producción de las fincas < 50 hectáreas

Una vez que el programa se pone en marcha y subvenciona el costo del
fertilizante de las fincas pequeñas y medianas, la evaluación de impacto
podría utilizar un DRD para evaluar su impacto (gráfico 6.2). El DRD cal-
cula el impacto como la diferencia en los resultados, por ejemplo, de la pro-
ducción de arroz, entre las unidades a ambos lados del límite de elegibilidad,
que en este caso es un tamaño de finca de 50 hectáreas. Las fincas que eran
demasiado grandes para inscribirse en el programa constituyen el grupo de
comparación y generan una estimación del resultado contrafactual de esas
fincas del grupo de tratamiento que eran justo lo suficientemente pequeñas
para inscribirse. Dado que estos dos grupos eran muy similares en la línea de
base y están expuestos al mismo conjunto de factores externos a lo largo del
tiempo (como el clima, los shocks de precios y las políticas agrícolas locales
y nacionales), el único motivo plausible de la diferencia en los resultados
tiene que ser el propio programa.
Dado que el grupo de comparación está compuesto por fincas que
superan la puntuación de elegibilidad, el impacto dado por un DRD es
válido solo “a nivel local”, es decir, en la cercanía del límite de elegibili-
dad. De esta manera, se obtiene una estimación de un efecto local prome-
dio del tratamiento (LATE) (véase el capítulo 5). El impacto del programa
de subvenciones de fertilizantes es válido para las fincas más grandes
Gráfico 6.2 Producción de arroz, fincas pequeñas vs. fincas grandes

(seguimiento)
Producción de arroz (fanegas por hectárea)
20
19
A
18
17
B
A
16 = Impacto
B
15
20 30 40 50 60 70 80
Hectáreas de terreno
= producción de las fincas > 50 hectáreas
= producción de las fincas < 50 hectáreas

dentro de aquellas de tamaño medio, es decir, aquellas cuya extensión se
halla justo por debajo de las 50 hectáreas. La evaluación de impacto no
será necesariamente capaz de identificar directamente el impacto del
programa en las fincas más pequeñas –por ejemplo, las de 10 o 20 hectá-
reas de superficie–, donde los efectos de una subvención de los fertili-
zantes podrían diferir en aspectos importantes de las fincas de tamaño
medio de 48 o 49 hectáreas. Una ventaja del método DRD es que una vez
que se aplican las reglas de elegibilidad del programa, no es preciso dejar
a ninguna unidad elegible sin tratamiento para los fines de la evaluación
de impacto. La otra cara de la moneda es que los impactos de las obser-
vaciones lejos de la puntuación límite no se conocerán. El recuadro 6.2
presenta un ejemplo del uso del DRD para evaluar un programa de redes
de protección social en Jamaica.
Recuadro 6.2: Redes de protección social basadas en un índice de

pobreza en Jamaica
El método de diseño de regresión puntuación, Levy y Ohls (2010) pudieron
discontinua (DRD) se utilizó para evaluar el comparar los hogares justo por debajo del
impacto de una iniciativa de redes de umbral de elegibilidad con los hogares justo
protección social en Jamaica. En 2001 el por encima (con una diferencia de entre 2 y
gobierno de este país lanzó el programa 15 puntos con respecto a la puntuación
Advancement through Health and Education límite). Los investigadores justificaron el uso
(PATH) (Salud y Educación para el Progreso) del método de DRD con datos de línea de
destinado a aumentar las inversiones en base que mostraban que los hogares de
capital humano y mejorar la focalización de tratamiento y comparación tenían niveles
los beneficios de las prestaciones sociales similares de pobreza, medidos por las pun-
para los pobres. El programa ofrecía tuaciones de tipo “proxy mean”, y niveles
subsidios de salud y educación a los niños similares de motivación, dado que todos los
de los hogares pobres elegibles, con la hogares de la muestra habían postulado al
condición de que asistieran a la escuela y programa. Los investigadores también utili-
realizaran chequeos médicos de manera zaron la puntuación de elegibilidad del pro-
regular. El beneficio mensual promedio para grama en el análisis de regresión para
cada niño fue de alrededor de US$6,50, controlar por cualquier diferencia entre
además de una exención estatal de ciertas ambos grupos.
tasas en salud y educación. Levy y Ohls (2010) llegaron a la conclusión
Después de determinar la elegibilidad de que el programa PATH aumentaba la
para el programa con una fórmula de asistencia escolar de los niños de entre 6 y

Recuadro 6.2: Redes de protección social basadas en un índice de pobreza en Jamaica (continúa)
17 años en una media de 0,5 días al mes, lo de que la magnitud de los impactos que
cual es significativo, dado que la tasa de hallaron era en general consistente con los
asistencia ya era bastante alta (85%). programas de transferencias condicionadas Además,
las visitas a los centros de salud de implementados en otros países. Un aspecto niños de 0
a 6 años aumentaron en alrededor final interesante de esta evaluación es de un 38%.
Aunque los investigadores no que recopiló tanto datos cuantitativos pudieron encontrar
ningún impacto de más como cualitativos, utilizando sistemas de largo plazo en los logros
escolares ni en la información, entrevistas, grupos focales y condición de salud, llegaron a
la conclusión encuestas de hogares.
Fuente: Levy y Ohls (2010).
El diseño de regresión discontinua difuso
Aun cuando se haya verificado que no existe evidencia de manipulación en

el índice de elegibilidad, puede que todavía persista un problema si las uni-
dades no respetan su asignación al grupo de tratamiento o de compara-
ción. En otras palabras, algunas unidades que tienen derecho al programa
sobre la base de su índice de elegibilidad pueden decidir no participar,
mientras que otras unidades que no tenían derecho al programa sobre la
base de su índice de elegibilidad pueden encontrar un modo de participar
de todas maneras. Cuando todas las unidades cumplen con la asignación
que les corresponde sobre la base de su índice de elegibilidad, se dice que
el DRD es “nítido”, y si hay incumplimiento en alguno de los lados de la
puntuación límite, se dice que el DRD es “difuso” (gráfico 6.3). Si el DRD es
difuso, se puede utilizar el enfoque de variable instrumental para corregir
por la falta de cumplimiento (véase el capítulo 5). Recuérdese que en el
caso de la asignación aleatoria con incumplimiento, se utiliza la asignación
aleatoria como la variable instrumental que ayudó a corregir por la falta de
cumplimiento. En el caso del DRD, se puede usar la asignación original
basada en el índice de elegibilidad como variable instrumental. Sin
embargo, hacerlo tiene un inconveniente, a saber, que la estimación de
impacto con el DRD instrumental será más localizada en el sentido de que
ya no es válida para todas las observaciones cercanas a la puntuación límite
sino que representa el impacto para el subgrupo de la población situada
cerca de la puntuación límite y que participa en el programa solo debido a
los criterios de elegibilidad.

Gráfico 6.3 Cumplimiento de la asignación
a. DRD nítido b. DRD difuso

(pleno cumplimiento) (cumplimiento incompleto)
Porcentaje de hogares
que participan
que participan 100 100
50 50
10 10
30 40 50 60 70 80 30 40 50 60 70 80
Índice de pobreza de la Índice de pobreza de la
línea de base línea de base
Verificación de la validez del diseño de regresión

discontinua
Para que un DRD produzca una estimación LATE no sesgada de la puntua-

ción límite, es importante que el índice de elegibilidad no sea manipulado en
la cercanía de la puntuación límite de modo que un individuo pueda cambiar
su condición de tratamiento o control.2 La manipulación de los criterios de
elegibilidad puede adoptarnumerosasformas. Porejemplo,losencuestadores
que recopilan los datos que se utilizan para calcular la puntuación de elegibi-
lidad podrían cambiar una o dos respuestas de los encuestados; o puede que
los encuestados mientan deliberadamente a los encuestadores si creen que
con eso tendrán acceso al programa. Además, la manipulación de las
puntuaciones puede agravarse a lo largo del tiempo, a medida que los encues-
tadores, los encuestados y los políticos comienzan a aprender las “reglas del
juego”. En el ejemplo de la subvención de los fertilizantes, la manipulación en
torno al límite se produciría si los agricultores pudieran alterar los títulos de
propiedad o si dieran informes falsos sobre el tamaño de sus fincas. O un
agricultor con 50,3 hectáreas de tierra podría encontrar una manera de vender
media hectárea para ser elegible para el programa, en el caso de que los bene-
ficios previstos de la subvención a los fertilizantes merecieran la pena hacerlo.
Una de las señales que delata la manipulación se ilustra en el gráfico 6.4.
El panel (a) muestra la distribución de los hogares según su índice de línea
de base cuando no hay manipulación. La densidad de los hogares en torno al
límite (50) es continua (o fluida). El panel (b) presenta una situación dife-
rente: un número mayor de hogares parecen estar agrupados justo por
Gráfico 6.4 Manipulación del índice de elegibilidad
a. Sin manipulación b. Manipulación

No elegible No elegible
Elegible Elegible
20 30 40 50 60 70 80 90 20 30 40 50 60 70 80 90
Índice de pobreza de la línea de base Índice de pobreza de la línea de base
Recuadro 6.3: El efecto en el desempeño escolar de la agrupación

de alumnos según sus puntuaciones en las pruebas educativas
en Kenia
Para comprobar si la asignación de alumnos mejores resultados que aquellos asignados a
a clases sobre la base del desempeño mejora la sección de bajo desempeño.
los resultados educativos, Duflo, Dupas y En promedio, las puntuaciones de las prue-
Kemer (2011) llevaron a cabo un experimento bas finales de los colegios que agruparon
con 121 escuelas primarias en la región occi- estudiantes en clases con niveles similares de
dental de Kenia. En la mitad de las escuelas, desempeño fueron 0,14 desviaciones están-
los alumnos de primer grado fueron distribui- dar más altas que en el caso de los colegios
dos de forma aleatoria en dos diferentes sec- que no usaron este método y en cambio utili-
ciones de la clase. En la otra mitad de los zaron la asignación aleatoria para crear grupos
colegios, los alumnos fueron asignados a equivalentes de estudiantes. Estos resultados
una sección de alto o de bajo desempeño no fueron solo producto de los alumnos en las
según sus puntuaciones en las pruebas ini- secciones de alto desempeño, dado que los
ciales, usando la puntuación de las pruebas estudiantes de la sección de bajo desempeño
educativas como punto límite. también mostraron mejoras en las puntuacio-
El diseño de regresión discontinua (DRD) nes de las pruebas. En el caso de los alumnos
les permitió comprobar a los autores si la com- justo en torno a la puntuación límite, los inves-
posición de los alumnos de una clase tenía un tigadores encontraron que no había una dife-
efecto directo en las puntuaciones de las prue- rencia significativa en las puntuaciones finales
bas. Los investigadores compararon las pun- de las pruebas. Estas conclusiones rechazan
tuaciones finales de las pruebas de los alumnos la hipótesis de que los alumnos se benefician
justo en torno al límite para ver si aquellos asig- directamente al tener compañeros de clase
nados a la sección de alto desempeño tenían con un desempeño superior.
Fuente: Duflo, Dupas y Kemer (2011).

debajo del límite, mientras que hay relativamente pocos hogares justo por
encima del límite. Dado que no hay un motivo a priori para creer que debe-
ría haber un gran cambio en el número de hogares justo en torno al límite, la
ocurrencia de ese cambio en la distribución en torno al límite es una prueba
de que de alguna manera los hogares pueden estar manipulando sus pun-
tuaciones para tener acceso al programa. Una segunda prueba de manipula-
ción grafica el índice de elegibilidad en relación con la variable de resultado
en la línea de base y verifica que no haya discontinuidad, o un “salto”, justo
en torno a la línea del límite.
Evaluación de impacto del HISP: diseño de regresión

discontinua
Piénsese en cómo se puede aplicar el método de diseño de regresión

discontinua (DRD) al Programa de Subsidios de Seguros de Salud (HISP).
Después de llevar a cabo investigaciones sobre el diseño del HISP, se
descubre que además de seleccionar aleatoriamente los pueblos de trata-
miento, las autoridades localizaron el programa en los hogares de bajos
ingresos utilizando la línea nacional de pobreza. La línea de la pobreza se
basa en un índice de pobreza que asigna a cada hogar en el país una pun-
tuación entre 20 y 100 en función de sus activos, las condiciones de la
vivienda y la estructura sociodemográfica. La línea de pobreza ha sido
fijada oficialmente en 58. Esto significa que todos los hogares con una
puntuación de 58 o menos se clasifican como pobres, y que todos los
hogares con una puntuación de más de 58 se consideran no pobres.
Incluso en los pueblos de tratamiento, solo los hogares pobres son elegi-
bles para inscribirse en el HISP. La base de datos con la que se cuenta
contiene información tanto de los hogares pobres como de los no pobres
en las comunidades de tratamiento.
Antes de llevar a cabo las estimaciones del diseño de regresión discon-
tinua, se decide verificar si hay evidencia de manipulación del índice de
elegibilidad. Como primera medida, se verifica si la densidad del índice
de elegibilidad suscita alguna preocupación a propósito de la manipula-
ción del índice. Luego se grafica el porcentaje de hogares en contraste con
el índice de pobreza de la línea de base (gráfico 6.5).3 El gráfico no señala
ninguna “concentración” de los hogares justo por debajo del límite de 58.
A continuación, se verifica si los hogares respetaron su asignación a
los grupos de tratamiento y comparación sobre la base de su puntuación
de elegibilidad. Se gráfica la participación en el programa en contraste
con el índice de pobreza de línea de base (gráfico 6.6) y se observa que

Gráfico 6.5 HISP: densidad de los hogares, según el índice de pobreza de
línea de base
0,04
0,03
Densidad estimada
0,02
0,01
Elegible No elegible
58
0
20 40 60 80 100
Índice de pobreza de la línea de base (20–100)
Gráfico 6.6 Participación en el HISP, según el índice de pobreza de línea

de base
1,0
Tasa de participación en el HISP
0,8
0,6
0,4
0,2
0
20 40 60 80 100

dos años después del comienzo del plan piloto, solo los hogares con una
puntuación de 58 o menos (es decir, a la izquierda de la línea de la
pobreza) han podido inscribirse en el HISP. Además, todos los hogares
elegibles se inscribieron en el HISP. En otras palabras, se observa un
cumplimiento total, por lo cual se obtiene un DRD “nítido”.
A continuación, se procede a aplicar el método de DRD para calcular
el impacto del programa. Utilizando datos del seguimiento, se vuelve a
graficar la relación entre las puntuaciones en el índice de pobreza y los
gastos previstos en salud, y se observa la relación que se ilustra en el
gráfico 6.7. En la relación entre el índice de pobreza y los gastos previstos
en salud, se encuentra una clara ruptura, o discontinuidad de la línea de
pobreza (58).
La discontinuidad refleja una disminución de los gastos en salud en
aquellos hogares elegibles para beneficiarse del programa. Dado que los
hogares en ambos lados de la puntuación límite de 58 son muy similares,
la explicación plausible de la diferencia en el nivel de gastos en salud es
que un grupo de los hogares era elegible para inscribirse en el programa
y el otro no. Esta diferencia se estima a través de una regresión con los
datos recogidos en el cuadro 6.1.
Gráfico 6.7 Índice de pobreza y gastos en salud: el HISP dos años después
60
Gastos en salud (dólares de EE.UU.)
40
20 A
0 58
20 40 60 80 100
Gastos en salud (dólares de EE.UU.) Valores ajustados

Impacto estimado en el gasto en salud

Cuadro 6.1 Evaluación del HISP: diseño de regresión discontinua con
análisis de regresión
Regresión lineal multivariante

Impacto estimado en el gasto en salud de −9,03**
los hogares (0,43)
Nota: Los errores estándar están entre paréntesis. ** Significativo al nivel del 1%.
Pregunta HISP 5
A. El resultado que se refleja en el cuadro 6.1, ¿es válido para todos los
hogares elegibles?
B. En comparación con el impacto estimado con la asignación aleatoria,
¿qué dice este resultado con respecto a los hogares con un índice de
pobreza justo por debajo de 58?
C. De acuerdo con las estimaciones de impacto del DRD, ¿se debería
ampliar el HISP a nivel nacional?
Limitaciones e interpretaciones del método de

diseño de regresión discontinua
El diseño de regresión discontinua proporciona estimaciones del LATE en

torno al límite de elegibilidad en el punto en que las unidades de trata-
miento y comparación son más similares. Cuanto más se acerque uno a la
puntuación límite, más similares serán las unidades a cada lado del umbral.
De hecho, si uno se aproxima mucho a la puntuación límite, las unidades a
ambos lados del umbral serán tan similares que su comparación será tan
buena como si los grupos de tratamiento y de comparación se hubieran
elegido mediante la asignación aleatoria del tratamiento.
Dado que el método de DRD estima el impacto del programa en torno a
la puntuación límite, o localmente, la estimación no se puede necesaria-
mente generalizar a unidades cuyas puntuaciones se alejan más del umbral,
es decir, donde los individuos elegibles y no elegibles quizá no sean tan
similares. El hecho de que el método de DRD no pueda proporcionar una
estimación de un efecto de tratamiento promedio para todos los participan-
tes del programa puede verse a la vez como una fortaleza y como una limita-
ción, lo cual depende de la pregunta de la evaluación de interés. Si la

evaluación pretende responder la pregunta ¿el programa debería existir o
no?, el efecto de tratamiento promedio para toda la población elegible puede
ser el parámetro más relevante, y es evidente que el DRD no será del todo
perfecto. Sin embargo, si la cuestión de interés para las políticas es ¿el pro-
grama debería suspenderse o ampliarse? –es decir, para los beneficiarios
(potenciales) justo en las inmediaciones del límite–, el DRD produce preci-
samente la estimación local de interés para sustentar esta importante deci-
sión de política.
Como ya se señaló, pueden surgir otras complicaciones cuando el cum-
plimiento en cualquiera de los dos lados del límite es imperfecto. Este DRD
difuso se produce cuando las unidades que no son elegibles debido a su pun-
tuación en el índice consiguen tener acceso al programa, o cuando las unida-
des elegibles según la puntuación del índice deciden no participar en el
programa. En este caso, se puede utilizar una metodología de variable ins-
trumental similar a la definida en el capítulo 5, a saber, la localización de las
unidades por encima o por debajo de la puntuación límite se usará como
variable instrumental para la participación observada en el programa. Como
sucedía en los ejemplos del capítulo 5, esto tiene un inconveniente: solo se
puede estimar el impacto de aquellas unidades que son “sensibles” al crite-
rio de elegibilidad, esto es si se trata del tipo Inscrito si es elegible, pero no si
se trata del tipo Siempres o Nuncas.
El hecho de que el método de DRD estime el impacto solo en las inmedia-
ciones de las puntuaciones límite también genera dificultades en términos
de la potencia estadística del análisis. En ocasiones, solo se emplea en el aná-
lisis un conjunto limitado de observaciones que se sitúan cerca de la puntua-
ción límite, con lo cual el número de observaciones en el análisis de DRD se
reduce, en comparación con los métodos que analizan todas las unidades en
los grupos de tratamiento y comparación. Para obtener una potencia esta-
dística suficiente al aplicar el DRD, habrá que utilizar un ancho de banda en
torno a la puntuación límite que incluya un número suficiente de observa-
ciones. En la práctica, se debería intentar utilizar un ancho de banda lo más
amplio posible, a la vez que se conserva el equilibrio en las características
observadas de la población por encima y por debajo de la puntuación límite.
Luego, se puede aplicar la estimación varias veces usando diferentes anchos
de banda para verificar si las estimaciones son sensibles al ancho de banda
utilizado.
Es necesario formular otra advertencia al utilizar el método de DRD, a
saber, la especificación puede ser sensible a la forma funcional que se emplea
para modelar la relación entre la puntuación de elegibilidad y el resultado
de interés. En los ejemplos presentados en este capítulo, se da por sentado
que la relación entre el índice de elegibilidad y el resultado es lineal. En rea-
lidad, la relación podría ser más compleja, e incluir relaciones no lineales e
interacciones entre variables. Si uno no se da cuenta de estas relaciones
complejas en la estimación, se las puede confundir con una discontinuidad,
lo que llevaría a una interpretación incorrecta de la estimación de impacto
con DRD. En la práctica, se puede estimar el impacto del programa utili-
zando diversas formas funcionales (lineales, cuadráticas, cúbicas, cuárticas,
y otras similares) para evaluar si, de hecho, las estimaciones de impacto son
sensibles a la forma funcional.
Por último, como se señala más arriba, hay unas cuantas condiciones
importantes para la regla de elegibilidad y el umbral. En primer lugar, deben
ser únicos del programa de interés. Por ejemplo, puede utilizarse un índice
de pobreza que establezca un ranking de hogares o individuos para focalizar
una diversidad de programas sociales para los pobres. En este caso, no será
posible aislar el impacto de un solo programa de lucha específica contra la
pobreza de todos los demás programas que utilizan los mismos criterios de
focalización. En segundo lugar, la regla de elegibilidad y el umbral deberían
ser resistentes a la manipulación de los encuestadores, los beneficiarios
potenciales, los administradores de los programas o los políticos. La mani-
pulación del índice de elegibilidad crea una discontinuidad en el índice que
socava la condición básica para que el método funcione, a saber, que el índice
de elegibilidad debería ser continuo en torno al umbral.
Incluso con estas limitaciones, el DRD es un poderoso método de evalua-
ción de impacto para generar estimaciones no sesgadas del impacto de un
programa en la cercanía del límite de elegibilidad. El DRD aprovecha las
reglas de asignación del programa, a partir de índices de elegibilidad conti-
nuos, que ya son habituales en numerosos programas sociales. Cuando se
aplican las reglas de focalización basadas en el índice, no es necesario excluir
un grupo de hogares o individuos elegibles como beneficiarios del trata-
miento a los fines de la evaluación, porque se puede utilizar el diseño de
regresión discontinua como alternativa.
Lista de verificación: diseño de regresión

discontinua
El DRD requiere que el índice de elegibilidad sea continuo en torno a la pun-

tuación límite, y que las unidades sean similares en las cercanías por encima
o por debajo de la puntuación límite.
 ¿Es continuo el índice en torno la puntuación límite en el momento de la
línea de base?
 ¿Hay alguna evidencia de falta de cumplimiento de la regla que determine
la elegibilidad para el tratamiento? Compruébese que todas las unidades
elegibles y ninguna unidad no elegible han recibido el tratamiento. Si se
encuentra falta de cumplimiento, habrá que combinar el DRD con un
enfoque de variable instrumental para corregir esta “discontinuidad
difusa”.4
 ¿Hay alguna evidencia de que las puntuaciones del índice puedan haber
sido manipuladas con el fin de influir en quien tenía derecho a benefi-
ciarse del programa? Compruébese si la distribución de la puntuación del
índice es fluida en el punto límite. Si se halla evidencia de una “concen-
tración” de puntuaciones ya sea por encima o por debajo del punto límite,
puede que esto sea una señal de manipulación.
 ¿El umbral corresponde a un único programa que se está evaluando o
está siendo usado por otros programas también?
Otros recursos
• Para material de apoyo de este libro y para hipervínculos de otros recur-

sos, se recomienda consultar el sitio web de Evaluación de Impacto en la
Práctica (http://www.worldbank.org/ieinpractice).
• Para información acerca de la evaluación de un programa de transferen-
cias de efectivo utilizando un DRD, véase la entrada en el blog de impacto
del desarrollo del Banco Mundial http://blogs.worldbank.org
/impactevaluations/.
• Para una revisión de los temas prácticos en la implementación del DRD,
véase G. Imbens y T.Lemieux (2008), “Regression Discontinuity Designs:
A Guide to Practice.” Journal of Econometrics 142 (2): 615–35.
Notas
1. En ocasiones, esto se denomina prueba de medias proxy.
2. El índice de elegibilidad continuo a veces se denomina variable forzada.
3. Nota técnica: la densidad se estimó utilizando el método de estimación univa-
riante del núcleo de Epanechnikov.
4. En este caso, se utilizaría la localización a la izquierda o la derecha del punto
límite como variable instrumental para la aceptación del programa en la
práctica en la primera etapa de una estimación de mínimos cuadrados en dos
etapas.

Barrera-Osorio, F., L. Linden y M. Urquiola. 2007. “The Effects of User Fee
Reductions on Enrollment: Evidence from a Quasi-Experiment.” Washington,
D.C.: Columbia University y Banco Mundial.
Duflo, E., P. Dupas y M. Kremer. 2011. “Peer Effects, Teacher Incentives, and the
Impact of Tracking: Evidence from a Randomized Evaluation in Kenya.”
American Economic Review 101: 1739–74.
Imbens, G. y T. Lemieux. 2008. “Regression Discontinuity Designs: A Guide to
Practice.” Journal of Econometrics 142 (2): 615–35.
Levy, D. y J. Ohls. 2010. “Evaluation of Jamaica’s PATH Conditional Cash Transfer
Programme.” Journal of Development Effectiveness 2 (4): 421–41.

CAPÍTULO 7
Diferencias en diferencias
Evaluación de un programa cuando la regla de

asignación es menos clara
Los tres métodos de evaluación de impacto analizados hasta ahora,

asignación aleatoria, variables instrumentales (VI) y diseño de regresión
discontinua (DRD), estiman el contrafactual mediante reglas explícitas de
asignación del programa que el equipo de evaluación conoce y entiende. Se
ha visto por qué estos métodos ofrecen estimaciones creíbles del contrafac-
tual haciendo relativamente pocas suposiciones e imponiendo pocas condi-
ciones. Los dos próximos tipos de métodos, diferencias en diferencias (DD)
y pareamiento, ofrecen al equipo de evaluación herramientas adicionales
que pueden aplicarse cuando las reglas de asignación del programa son
menos claras o cuando no es factible ninguno de los tres métodos antes des-
critos. En casos como este, se suele utilizar tanto el método de diferencias
en diferencias como el de pareamiento. Sin embargo, ambos también
requieren supuestos más fuertes que la asignación aleatoria, o los métodos
de VI o DRD. Se entiende que si no se conoce la regla de asignación del pro-
grama, hay una incógnita más en la evaluación, acerca de la cual se deben
formular supuestos. Dado que los supuestos no son necesariamente verda-
deros, puede que el método de diferencias en diferencias o el de parea-
miento no siempre proporcionen estimaciones fiables de los impactos de
los programas.
143
El método de diferencias en diferencias
Concepto clave El método de diferencias en diferencias contrasta las diferencias en los

El método de resultados a lo largo del tiempo entre una población inscrita en un programa
diferencias en (el grupo de tratamiento) y una población no inscrita (el grupo de compara-
diferencias compara
ción). Piénsese, por ejemplo, en un programa de reparación de carreteras
los cambios en los
que se lleva a cabo a nivel de distrito pero que no se puede asignar aleatoria-
resultados a lo largo
del tiempo entre mente entre distritos ni se asigna sobre la base de un índice con un umbral
unidades inscritas en claramente definido, lo cual permitiría un diseño de regresión discontinua.
un programa (el grupo Las juntas de los distritos pueden decidir inscribirse o no inscribirse en el
de tratamiento) y programa. Uno de los objetivos del programa consiste en mejorar el acceso
unidades que no lo
de la población a los mercados laborales, y uno de los indicadores de resul-
están (el grupo de
comparación). Esto
tados es la tasa de empleo. Como se analizó en el capítulo 3, el solo hecho de
permite corregir observar el cambio antes y después en las tasas de empleo en los distritos
cualquier diferencia que se inscriben en el programa no capturará el impacto causal del pro-
entre los grupos de grama porque es probable que muchos otros factores influyan en el empleo
tratamiento y a lo largo del tiempo. A la vez, comparar los distritos que se inscribieron y los
comparación que sea
que no se inscribieron en el programa de reparación de carreteras será pro-
constante a lo largo
del tiempo. blemático si existen motivos no observables por los que algunos distritos se
inscribieron en el programa y otros no lo hicieron (el problema de sesgo de
selección en el escenario de inscritos versus no inscritos).
Sin embargo, ¿qué pasaría si se combinan los dos métodos y se comparan
los cambios antes-después en los resultados de un grupo que se inscribió en
el programa con los cambios antes-después de un grupo que no se inscribió
en el programa? La diferencia en los resultados antes-después para el grupo
inscrito –la primera diferencia– controla por factores que son constantes a lo
largo del tiempo en ese grupo, puesto que se está comparando el propio
grupo consigo mismo. Sin embargo, todavía quedan los factores externos
que varían con el tiempo (factores variables en el tiempo) en este grupo. Una
manera de capturar esos factores que varían en el tiempo es medir el cambio
antes-después en los resultados de un grupo que no se inscribió en el pro-
grama pero que estuvo expuesto al mismo conjunto de condiciones ambien-
tales (la segunda diferencia). Si se “limpia” la primera diferencia de otros
factores variables en el tiempo que influyen en el resultado de interés sustra-
yendo la segunda diferencia, se habrá eliminado una fuente de sesgo que
resultaba preocupante en las comparaciones sencillas antes-después. El
enfoque de diferencias en diferencias hace lo que su nombre sugiere: com-
bina las dos estimaciones falsas del contrafactual (comparaciones antes-des-
pués y comparaciones entre quienes se inscriben y quienes deciden no
hacerlo) para producir una mejor estimación del contrafactual. En el ejem-
plo del programa de reparación de carreteras, el método DD podría compa-
rar los cambios en el empleo antes y después de que se ponga en marcha el
programa en los individuos que viven en distritos que lo introdujeron con los
cambios en el empleo en los distritos donde no se implementó el programa.
Es importante señalar que el contrafactual que se estima en este caso es
el cambio en los resultados del grupo de tratamiento. La estimación de este
contrafactual es el cambio en los resultados del grupo de comparación. Los
grupos de tratamiento y comparación no tienen necesariamente que tener
las mismas condiciones antes de la intervención. Sin embargo, para que el
método de diferencias en diferencias sea válido, el grupo de comparación
debe mostrar con precisión el cambio en los resultados que habría experi-
mentado el grupo de tratamiento en ausencia de tratamiento. Para aplicar
diferencias en diferencias, hay que medir los resultados en el grupo que se
beneficia del programa (el grupo de tratamiento) con los resultados del
grupo que no se beneficia (el grupo de comparación), tanto antes como des-
pués del programa. En el recuadro 7.1, se presenta un ejemplo de utilización
del método DD para entender el impacto de los incentivos electorales en la
implementación de un programa de transferencias condicionadas aplicado
en Brasil y en las tasas de deserción escolar.
Recuadro 7.1: Utilización del método DD para entender el impacto

de los incentivos electorales en las tasas de abandono escolar en
Brasil
En un estudio empírico sobre los incentivos en el desempeño del programa en las dife-
electorales locales, De Janvry, Finan y Sadoulet rentes municipalidades. Para explorar esta
(2011) analizan los impactos de un programa variación, los investigadores compararon la
de transferencias condicionadas en Brasil. El mejora en las tasas de abandono escolar en
programa Bolsa Escola entregaba a las madres los municipios cuyos alcaldes ejercían su pri-
de los hogares pobres una mensualidad con la mer mandato con los municipios donde los
condición de que sus hijos asistieran a la alcaldes ya estaban en su segundo man-
escuela. Se trataba de un programa federal dato. Su hipótesis era que, dado que en
similar al de Oportunidades de México (véanse Brasil existe un límite de dos mandatos para
los recuadros 1.1 y 4.2), pero a nivel municipal. los cargos locales, a los alcaldes que se
Las municipalidades eran las encargadas de hallaban en su primer mandato les preocu-
identificar a los beneficiarios e implementar el paba su reelección y, por lo tanto, actuaban
programa. de manera diferente que los alcaldes que
Utilizando el método de diferencias en ejercían ya en su segundo mandato, que no
diferencias, los autores estimaron el impacto tenían esas preocupaciones.
del programa en las tasas de abandono En general, el programa tuvo éxito y redujo
escolar, y encontraron una variación notable las tasas de abandono escolar en un promedio
Diferencias en diferencias 145

Recuadro 7.1 Utilización del método DD para entender el impacto de los incentivos electorales en las
tasas de abandono escolar en Brasil (continúa)
del 8% entre los beneficiarios. Los investiga- Su conclusión fue que las preocupaciones
dores observaron que el impacto del pro- acerca de la reelección incentivaron a los polí-
grama era un 36% mayor en los municipios ticos locales a aumentar sus esfuerzos en la
cuyos alcaldes ejercían su primer mandato. implementación del programa Bolsa Escola.
Fuente: De Janvry, Finan y Sadoulet (2011).
Gráfico 7.1 El método de diferencias en diferencias
Resultado- Grupo de
tasa de comparación
empleo
D = 0,81
C = 0,78
B = 0,74
Impacto estimado = 0,11
E = 0,63
A = 0,60
Grupo de Tendencia del grupo de

tratamiento comparación
Tiempo
Año –2 Año –1 Año 0 Año 1
Nota: Todas las diferencias entre los puntos deberían leerse como diferencias verticales de los
resultados en el eje vertical.
El gráfico 7.1 ilustra el método de diferencias en diferencias en el ejemplo

de la reparación de carreteras. El año 0 es el año de línea de base. En el año
1 se inscribe en el programa un grupo de distritos de tratamiento, mientras
que no lo hace un grupo de distritos de comparación. El nivel de los resulta-
dos (la tasa de empleo) en el grupo de tratamiento va de A, antes del
comienzo del programa, a B, después del comienzo del programa, mientras
que el resultado para el grupo de comparación va de C, antes del comienzo
del programa, a D, después del comienzo del programa.
Recuérdense los dos falsos contrafactuales: la diferencia de los resulta-
dos antes y después de la intervención en el grupo de tratamiento (B-A) y la
diferencia de los resultados después de la intervención entre los grupos de
tratamiento y de comparación (B−D). Con las diferencias en diferencias, la

estimación del contrafactual se obtiene calculando el cambio en los resul-
tados del grupo de comparación (D−C) y luego sustrayéndolo del cambio en
los resultados del grupo de tratamiento (B−A). Utilizar el cambio en los
resultados del grupo de comparación como la estimación del contrafactual
para el cambio en los resultados del grupo de tratamiento es similar a supo-
ner que si el grupo que se inscribió no hubiera participado en el programa,
sus resultados habrían evolucionado a lo largo del tiempo siguiendo la
misma tendencia que el grupo que no se inscribió, es decir, la evolución en
el resultado del grupo inscrito habría ido de A a E, como se muestra en el
gráfico 7.1.
En resumen, el impacto del programa se computa simplemente como la
diferencia entre dos diferencias:
Impacto de la DD = (B − A) − (D − C) = (0,74 − 0,60) − (0,81 − 0,78) = 0,11.
Las relaciones que se muestran en el gráfico 7.1 también pueden presen-

tarse en un cuadro sencillo. El cuadro 7.1 describe los componentes de las
estimaciones de diferencias en diferencias. La primera línea contiene los
resultados del grupo de tratamiento antes de la intervención (A) y después
de la intervención (B). La comparación antes-después del grupo de trata-
miento es la primera diferencia (B–A). La segunda línea contiene los resul-
tados del grupo de comparación antes de la intervención (C) y después de
la intervención (D), de modo que la segunda diferencia es (D–C).
El método de diferencias en diferencias computa la estimación del impacto
de la siguiente manera:
1. Se calcula la diferencia del resultado (Y) entre las situaciones antes y

después para el grupo de tratamiento (B − A).
Cuadro 7.1 Cálculo del método de diferencias en diferencias
Después Antes Diferencia

Tratamiento/inscritos B A B−A
Comparación/no inscritos D C D−C
Diferencia B–D A−C DD = (B − A) − (D − C)
Después Antes Diferencia

Tratamiento/inscritos 0,74 0,60 0,14
Comparación/no inscritos 0,81 0,78 0,03
Diferencia −0,07 −0,18 DD = 0,14 − 0,03 = 0,11

2. Se calcula la diferencia del resultado (Y) entre las situaciones antes y des-
pués para el grupo de comparación (D − C).
3. A continuación, se calcula la diferencia entre la diferencia en los resulta-
dos del grupo de tratamiento (B − A) y la diferencia del grupo de compa-
ración (D − C), o DD = (B − A) − (D − C). Estas diferencias en diferencias
constituyen la estimación del impacto.
También se consideran las diferencias en diferencias en la dirección contra-
ria: se calcula primero la diferencia en el resultado entre el grupo de trata-
miento y el de comparación en la situación después; luego se calcula la
diferencia en el resultado entre el grupo de tratamiento y de comparación
en la situación antes, y finalmente se sustrae este último del primero.
Impacto DD = (B − D) − (A − C) = (0,74 – 0,81) − (0,60 – 0,78) = 0,11.
¿Qué utilidad tiene el método de diferencias en

diferencias?
Para entender la utilidad de este método, debe tomarse nuestro segundo

contrafactual falso, analizado en el capítulo 3, que comparaba las unidades
inscritas con las no inscritas en un programa. Recuérdese que la principal
preocupación en este caso era que las dos series de unidades pudieran tener
características diferentes y que pueden ser dichas características –y no el
programa– las que explican la diferencia en los resultados entre los dos gru-
pos. Las diferencias no observadas en las características eran especialmente
preocupantes: por definición, es imposible incluir las características no
observables en el análisis.
El método de diferencias en diferencias contribuye a resolver este pro-
blema en la medida en que se puede razonablemente suponer que muchas
características de las unidades o personas son constantes a lo largo del
tiempo (o invariables en el tiempo). Piénsese, por ejemplo, en características
observables, como el año de nacimiento de una persona, la ubicación de una
región con respecto al océano, la altura de la ciudad o el nivel de educación
de los padres. Es probable que la mayoría de estos tipos de variables, aunque
posiblemente relacionadas con los resultados, no cambien en el transcurso
de una evaluación. Con el mismo razonamiento, podría llegarse a la conclu-
sión de que muchas características no observables de los individuos tam-
bién son más o menos constantes a lo largo del tiempo. Piénsese, por
ejemplo, en los rasgos de la personalidad o el historial de salud de la familia.
Es posible que estas características intrínsecas de las personas no cambien
con el tiempo.
En lugar de contrastar los resultados entre los grupos de tratamiento y Concepto clave
comparación después de la intervención, los métodos de diferencias en En lugar de contrastar
diferencias estudian las tendencias entre los grupos de tratamiento y compa- resultados entre los
ración. La tendencia de un individuo es la diferencia en los resultados para grupos de tratamiento
ese individuo antes y después del programa. Al sustraer la situación de los y comparación
después de la
resultados antes de la situación después, se anula el efecto de todas las carac-
intervención, los
terísticas que son únicas de ese individuo y que no cambian a lo largo del métodos de
tiempo. En realidad, se está anulando (o controlando) no solo el efecto de diferencias en
características observables invariables en el tiempo, sino también el efecto diferencias comparan
de características no observables invariables en el tiempo, como las ya men- las tendencias entre
ambos grupos.
cionadas. En el recuadro 7.2 se describe un estudio que utilizó el método de
diferencias en diferencias para estimar el impacto de una mayor presencia
policial en la incidencia de robos de vehículos en Buenos Aires.
Recuadro 7.2: Aplicación del método de diferencias en diferencias

para estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina
DiTella y Schargrodsky (2005) analizaron si un policial en zonas con tasas de delitos más
mayor despliegue de las fuerzas policiales redu- altas. En cambio, el incremento en el des-
cía los delitos en Argentina. En 1994 un ataque pliegue de la fuerza policial en Argentina no
terrorista contra un importante centro judío en estaba relacionado en absoluto con la inci-
Buenos Aires llevó al gobierno argentino a dencia de los robos de vehículos, de modo
aumentar la protección policial de los edificios que el estudio no sufre de este problema de
relacionados con instituciones judías en el país. causalidad simultánea. DiTella y Schargrodsky
Con el objetivo de entender el impacto de utilizaron el método de diferencias en dife-
la presencia policial en la incidencia del rencias para estimar el impacto de la mayor
delito, los autores recopilaron datos sobre el presencia policial en la incidencia de los
número de robos de vehículos por manzana robos de vehículos.
en tres barrios en Buenos Aires antes y des- Los resultados revelaron un efecto disua-
pués del ataque terrorista. Luego combina- sorio positivo de la presencia policial en los
ron esta información con datos geográficos delitos. Sin embargo, este efecto era locali-
sobre la ubicación de instituciones judías en zado. En las manzanas donde había edificios
aquellos barrios. Este estudio presentó un relacionados con instituciones judías que
enfoque diferente de las habituales regresio- tenían protección policial, los robos de vehí-
nes utilizadas en la lucha contra el crimen. culos disminuyeron significativamente en
Los trabajos sobre el impacto de la presencia comparación con otras manzanas, a saber,
policial a menudo se enfrentan a un pro- en un 75%. Los investigadores no encontra-
blema de endogeneidad, puesto que los ron impactos en los robos de vehículos a una
gobiernos tienden a aumentar la presencia o dos manzanas de los edificios protegidos.
Fuente: DiTella y Schargrodsky (2005).

El supuesto de “tendencias iguales” en el
método de diferencias en diferencias
A pesar de que las diferencias en diferencias permiten tener en cuenta las

diferencias entre los grupos de tratamiento y comparación que son constan-
tes a lo largo del tiempo, no ayudan a eliminar las diferencias entre los gru-
pos de tratamiento y de comparación que cambian con el tiempo. En el
ejemplo del programa de reparación de carreteras, si las zonas de trata-
miento también se benefician de la construcción de un nuevo puerto marí-
timo al mismo tiempo que se produce la reparación de las carreteras, el
efecto de esta última no podrá separarse de la construcción del puerto marí-
timo utilizando un enfoque de diferencias en diferencias. Paraque el método
proporcione una estimación válida del contrafactual, se debe suponer que
no existen ese tipo de diferencias que varían en el tiempo entre los grupos de
tratamiento y comparación.
Otra manera de pensar en esto es que, en ausencia del programa, las dife-
rencias en los resultados entre los grupos de tratamiento y comparación ten-
drían que evolucionar de forma paralela. Es decir, sin el tratamiento, los
resultados tendrían que aumentar o disminuir en la misma medida en ambos
grupos; los resultados tienen que mostrar tendencias iguales en ausencia de
tratamiento.
Desde luego, no hay manera de demostrar que las diferencias entre los
grupos de tratamiento y comparación habrían evolucionado de manera
paralela en ausencia del programa. El motivo es que no se puede observar
qué habría ocurrido con el grupo de tratamiento en ausencia del trata-
miento, es decir, no se puede observar el contrafactual.
Por lo tanto, cuando se emplea el método de diferencias en diferencias, se
debe suponer que, en ausencia del programa, los resultados en el grupo de
tratamiento habrían evolucionado de forma paralela con los resultados del
grupo de comparación. El gráfico 7.2 ilustra un incumplimiento de este
supuesto fundamental. Si las tendencias de los resultados son diferentes
para los grupos de tratamiento y de comparación, el efecto estimado de tra-
tamiento obtenido mediante métodos de diferencias en diferencias sería
inválido o estaría sesgado. Esto se debe a que la tendencia del grupo de com-
paración no es una estimación válida de la tendencia contrafactual que
habría prevalecido en el grupo de tratamiento en ausencia del programa.
Como se muestra en el gráfico 7.2, si en realidad los resultados del grupo de
comparación aumentan más lentamente que los resultados del grupo de tra-
tamiento en ausencia del programa, utilizar la tendencia del grupo de com-
paración como estimación del contrafactual de la tendencia del grupo de
tratamiento conduce a una estimación sesgada del impacto del programa.
Más concretamente, se estaría sobreestimando el impacto del programa.
Gráfico 7.2 Diferencias en diferencias cuando las tendencias de los
resultados son diferentes
Grupo de
Resultado- comparación
tasa de
D = 0,81
empleo
C = 0,78
Contrafactual
verdadero
B = 0,74
Impacto verdadero < 0,11
A = 0,60 E = 0,63
Tendencia del grupo de

Grupo de
tratamiento comparación
Tiempo
Año –2 Año –1 Año 0 Año 1
Comprobación del supuesto de igualdad de tendencias en el

método de diferencias en diferencias
A pesar de que no se puede demostrar, la validez del supuesto funda-

mental de igualdad de tendencias se puede evaluar. Una primera verifi-
cación de validez consiste en contrastar los cambios en los resultados en
los grupos de tratamiento y comparación en repetidas ocasiones antes
de la implementación del programa. En el programa de reparación de
carreteras, esto significa que se mediría el cambio en la tasa de empleo
entre los grupos de tratamiento y comparación antes del comienzo del
programa, es decir, entre el segundo y el primer año, y entre el primer
año y el año cero. Si se ve que los resultados evolucionaban de forma
paralela antes del comienzo del programa, es razonable suponer que
habrían seguido evolucionando de la misma manera después de la inter-
vención. Para verificar la igualdad de las tendencias antes de la inter-
vención, se requieren al menos dos rondas de observaciones en los
grupos de tratamiento y comparación antes del comienzo del programa.
Esto significa que la evaluación requeriría tres rondas de observaciones:
dos observaciones previas a la intervención para valorar las tendencias
anteriores al programa, y al menos una observación posterior a la inter-
vención para evaluar el impacto mediante el método de diferencias en
diferencias.
Una segunda manera de comprobar el supuesto de las tendencias iguales
sería llevar a cabo lo que se denomina prueba de placebo. Para esta prueba, se
realiza una segunda estimación de diferencias en diferencias utilizando un
grupo de tratamiento “falso”, es decir, un grupo que, según lo que el evalua-
dor sabe, no ha sido afectado por el programa. Por ejemplo, se quiere esti-
mar cómo las clases de apoyo para los alumnos del séptimo grado influyen
en su probabilidad de asistir a la escuela, y entonces se eligen estudiantes de
octavo grado como grupo de comparación. Para comprobar si los estudian-
tes de séptimo y octavo grado tienen las mismas tendencias en términos de
asistencia escolar, podría verificarse que los estudiantes de octavo y de sexto
grado tengan las mismas tendencias. El evaluador sabe que los alumnos de
sexto grado no se verán afectados por el programa, de modo que si realiza
una estimación de diferencias en diferencias utilizando a los alumnos de
octavo grado como grupo de comparación y a los de sexto como el grupo de
tratamiento falso, tiene que obtener un impacto de cero. De lo contrario, el
impacto que encuentre se deberá necesariamente a alguna diferencia fun-
damental en las tendencias entre los estudiantes de sexto y octavo grado.
Esto, a su vez, arroja dudas sobre si es válido el supuesto de que los alumnos
de séptimo y octavo grado tienen tendencias iguales en ausencia del
programa.
Una tercera manera de probar el supuesto de tendencias iguales sería lle-
var a cabo la prueba de placebo no solo con un grupo de tratamiento falso,
sino también con un resultado falso. En el ejemplo de las clases de apoyo,
conviene comprobar la validez de utilizar a los alumnos de octavo grado
como grupo de comparación estimando el impacto de las clases de apoyo en
un resultado que, según lo que se sabe, no se ve afectado por dichas clases,
como, por ejemplo, el número de hermanos que los alumnos tienen. Si la
estimación de diferencias en diferencias encuentra un “impacto” de las cla-
ses de apoyo en el número de hermanos de los alumnos, entonces ya se sabe
que el grupo de comparación debe tener alguna falla.
Una cuarta manera de comprobar el supuesto de las tendencias iguales
consistiría en aplicar el método de diferencias en diferencias utilizando
diferentes grupos de comparación. En el ejemplo de las clases de apoyo, pri-
mero se llevaría a cabo la estimación con los alumnos de octavo grado como
grupo de comparación, y luego se realizaría una segunda estimación
tomando a los alumnos de sexto grado como grupo de comparación. Si los
dos grupos son válidos, se observará que el impacto estimado es aproxima-
damente el mismo en ambos cálculos. En los recuadros 7.3 y 7.4 se presentan
dos ejemplos de una evaluación de diferencias en diferencias que utilizan
una combinación de estos métodos para probar el supuesto de tendencias
iguales.

Recuadro 7.3: Comprobando el supuesto de tendencias iguales:
privatización del agua y mortalidad infantil en Argentina
Galiani, Gertler y Schargrodsky (2005) usaron relación alguna con las crisis económicas
el método de diferencias en diferencias para ni con los niveles históricos de mortalidad
resolver una importante pregunta de las polí- infantil. Verificaron la solidez de sus obser-
ticas públicas: ¿la privatización de los servi- vaciones llevando a cabo una prueba pla-
cios de suministro de agua mejora los cebo con un“resultado falso”: distinguieron
resultados en materia de salud y contribuye al entre aquellas causas de mortalidad infan-
alivio de la pobreza? Durante la década de til relacionadas con la calidad del agua,
1990, Argentina inició una de las campañas como enfermedades infecciosas y parasi-
de privatización más grandes de su historia y tarias, y aquellas no relacionadas con la
transfirió las compañías municipales de aguas calidad del agua, como los accidentes y las
a empresas privadas reguladas. El proceso de enfermedades congénitas. Luego proba-
privatización se produjo a lo largo de una ron el impacto de la privatización de los
década, y el mayor número de privatizaciones servicios de suministro de agua por sepa-
tuvo lugar después de 1995, cubriendo alre- rado para los dos subconjuntos de causas
dedor del 30% de los municipios del país y a de mortalidad. Así, llegaron a la conclusión
un 60% de la población. de que la privatización de los servicios de
La evaluación aprovechó el cambio de la suministro de agua estaba correlacionada
propiedad del servicio de aguas a lo largo del con la disminución de las muertes por
tiempo para determinar el impacto de la pri- enfermedades infecciosas y parasitarias,
vatización sobre la tasa de mortalidad de los pero no estaba correlacionada con la dis-
menores de 5 años. Antes de 1995, el ritmo minución de las muertes por causas como
de reducción de las tasas de mortalidad accidentes y enfermedades congénitas.
infantil era el mismo en todo el país; des- Al final, la evaluación determinó que la
pués de 1995, las tasas de mortalidad se mortalidad infantil se redujo cerca de un 8%
redujeron más rápidamente en aquellos en las zonas donde se privatizaron los servi-
municipios donde se había privatizado el cios, y que el efecto fue más notable, de
suministro de agua. alrededor de un 26%, en las zonas más
De acuerdo con los investigadores, en pobres, donde la ampliación de la red de
este contexto es muy probable que se suministro de agua había sido mayor. Este
cumpla el supuesto necesario para aplicar estudio arrojó luz sobre diversos debates
el método de diferencias en diferencias. fundamentales de políticas públicas en rela-
Concretamente, los autores demostraron ción con la privatización de los servicios
que no se observaban diferencias en las públicos. Los investigadores llegaron a la
tendencias de mortalidad infantil entre los conclusión de que en Argentina el sector pri-
municipios de comparación y tratamiento vado regulado demostraba ser más exitoso
antes de que comenzara la campaña que el sector público en la mejora de indica-
de privatizaciones. También demostraron dores de acceso, servicio y, lo que es más
que la decisión de privatizar no guardaba importante, mortalidad infantil.
Fuente: Galiani, Gertler y Schargrodsky (2005).

Recuadro 7.4: Poniendo a prueba el supuesto de tendencias
iguales: la construcción de escuelas en Indonesia
Duflo (2001) analizó los impactos de un método de estimación válido, primero
mediano y largo plazo de un programa para tuvo que probar el supuesto de tendencias
construir escuelas en Indonesia en los resul- iguales en diferentes distritos. Para hacerlo,
tados educativos y del mercado laboral. En utilizó una prueba de placebo con un grupo
1973 Indonesia se embarcó en un programa de tratamiento falso. Comparó la cohorte de
de construcción de escuelas primarias de 18 a 24 años en 1974 con la cohorte de 12 a
gran escala, y se construyeron más de 17 años. Dado que ambas eran demasiado
61.000 establecimientos de este tipo. Para mayores para beneficiarse del nuevo pro-
centrarse en los alumnos que no se habían grama, los cambios en sus niveles educati-
matriculado anteriormente en la escuela, el vos no deberían ser sistemáticamente
gobierno asignó el número de colegios que diferentes en los distintos distritos. La esti-
serían construidos en cada distrito en pro- mación de esta regresión de diferencias en
porción al número de alumnos no matricula- diferencias era cercana a cero. Este resul-
dos en ese distrito. Duflo deseaba evaluar el tado significaba que los niveles educativos
impacto del programa en los niveles educa- antes de que el programa comenzara no
tivos y los salarios. La exposición al trata- aumentaron más rápidamente en las zonas
miento se midió por el número de escuelas que después se convertirían en distritos de
de la región, y los grupos de tratamiento y alta exposición que en los distritos de baja
comparación fueron identificados a partir de exposición. La prueba de placebo también
la edad que tenían cuando se lanzó el pro- mostró que la estrategia de basarse en la
grama. El grupo de tratamiento se componía edad en el momento de la construcción de
de varones nacidos después de 1962, dado la escuela funcionaría.
que habrían sido lo bastante jóvenes para La evaluación encontró resultados positi-
beneficiarse de las nuevas escuelas prima- vos en los niveles educativos y en los sala-
rias cuando estas se construyeron en 1974. rios de los alumnos con una alta exposición
El grupo de comparación estaba formado al programa, es decir, aquellos que tenían
por varones nacidos antes de 1962, que menos de 8 años cuando se construyeron
habrían sido demasiado mayores para bene- las escuelas. Para estos estudiantes, cada
ficiarse del programa. nueva escuela construida por cada 1.000
Duflo utilizó el método de diferencias en niños se asociaba con una mejora de 0,12 a
diferencias para estimar el impacto del pro- 0,19 años en los niveles educativos y un
grama en los logros educativos promedio de aumento del 3% al 5,4% en los salarios. El
los salarios, y comparó las diferencias en los programa también aumentó en un 12% la
resultados entre distritos de alta y baja expo- probabilidad de que un niño completara la
sición. A fin de demostrar que se trataba de escuela primaria.
Fuente: Duflo (2001).

Evaluación del impacto del HISP: la aplicación de
diferencias en diferencias
El método de diferencias en diferencias se puede usar para evaluar el

Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en
inglés). En este escenario, hay dos rondas de datos sobre dos grupos de
hogares: un grupo que se inscribió en el programa y otro que no lo hizo.
Si se recuerda el caso de los grupos inscritos y no inscritos, se verá que no
se puede simplemente comparar los gastos promedio en salud de los dos
grupos debido al sesgo de selección. Puesto que se cuenta con datos de
los períodos para cada hogar de la muestra, dichos datos se pueden usar
para resolver algunos de estos problemas comparando el cambio en los
gastos en salud de ambos grupos, suponiendo que el cambio en el gasto
en salud del grupo no inscrito refleje lo que habría ocurrido con los gas-
tos del grupo inscrito en ausencia del programa (véase el cuadro 7.2).
Nótese que no importa de qué manera se calcula la doble diferencia.
A continuación, se estima el efecto utilizando análisis de regresión
(cuadro 7.3). Recurriendo a una simple regresión lineal para computar la
estimación simple de diferencias en diferencias, se observa que el programa
redujo los gastos en salud de los hogares en US$ 8,16. Luego se refina el aná-
lisis añadiendo otras variables de control. En otras palabras, se emplea una
regresión lineal multivariante que tiene en cuenta múltiples otros factores,
y se observa la misma reducción en los gastos de los hogares en salud.
Cuadro 7.2 Evaluación del HISP: diferencias en diferencias (comparación
de medias)
Después Antes (línea de Diferencia

(seguimiento) base)
Inscritos 7,84 14,49 –6,65
No inscritos 22,30 20,79 1,51
Diferencia DD = –6,65 – 1,51 = –8,16
Nota: El cuadro presenta el gasto medio (en dólares) en salud de los hogares inscritos y no inscri-
tos, antes y después de la introducción del HISP.
Cuadro 7.3 Evaluación del HISP: diferencias en diferencias (análisis de

regresión)

Impacto estimado sobre
el gasto en salud de los −8,16** −8,16**
hogares (0,32) (0,32)
Nota: Los errores estándares están entre paréntesis.


Pregunta HISP 6
A. ¿Qué supuestos básicos son necesarios para aceptar este resultado de diferencias
en diferencias?
B. De acuerdo con los resultados de las diferencias en diferencias, ¿se debería ampliar
el HISP a nivel nacional?
Limitaciones del método de diferencias en

diferencias
Aun cuando las tendencias sean iguales antes del comienzo de la inter-
vención, el sesgo en la estimación de diferencias en diferencias puede
producirse y pasar inadvertido. Esto se debe a que el método DD atri-
buye a la intervención cualquier diferencia de las tendencias entre los
grupos de tratamiento y de comparación que se producen desde el
momento en que la intervención comienza. Si hay otros factores presen-
tes que influyen en la diferencia en las tendencias entre los dos grupos, y
la regresión multivariante no rinde cuenta de ellos, la estimación será
inválida o sesgada.
Supóngase que se intenta estimar el impacto en la producción de arroz
con la subvención de los fertilizantes y que esto se lleva a cabo midiendo la
producción de arroz de los agricultores subvencionados (tratamiento) y de
los agricultores no subvencionados (comparación) antes y después de la dis-
tribución de las subvenciones. Si en el año 1 tiene lugar una sequía que afecta
solamente a los agricultores subvencionados, la estimación de diferencias
en diferencias producirá una estimación inválida del impacto de subvencio-
nar los fertilizantes. En general, cualquier factor que afecte a uno de los dos
grupos de forma desproporcionada, y lo hace al mismo tiempo en que el
grupo de tratamiento recibe el tratamiento, sin que esto se tome en cuenta
en la regresión, puede potencialmente invalidar o sesgar la estimación del
impacto del programa. El método DD supone que no hay factores de este
tipo presentes.
Verificación: diferencias en diferencias
Las diferencias en diferencias suponen que las tendencias de los resultados

son similares en los grupos de comparación y tratamiento antes de la inter-
vención y que los únicos factores que explican las diferencias en los
resultados entre ambos grupos, aparte del propio programa, son constantes
a lo largo del tiempo.
 Los resultados ¿habrían evolucionado de forma paralela en los grupos
de tratamiento y comparación en ausencia del programa? Esto se puede
evaluar utilizando diversas pruebas de falsificación, como las siguien-
tes: 1) Los resultados en los grupos de tratamiento y comparación ¿evo-
lucionaban de modo paralelo antes de la intervención? Si hay dos
rondas de datos disponibles antes del comienzo del programa, se debe
probar si existen diferencias en las tendencias que aparecen entre
ambos grupos; 2) ¿Qué sucede con los resultados falsos que no deberían
verse afectados por el programa? ¿Evolucionan de forma paralela antes
y después del inicio de la intervención en los grupos de tratamiento y
comparación?
 Realizar el análisis de diferencias en diferencias utilizando varios grupos

plausibles de comparación. Deberían obtenerse estimaciones similares
del impacto del programa.
 Efectuar el análisis de diferencias en diferencias usando los grupos de
tratamiento y comparación elegidos, y un resultado falso que no debería
verse afectado por el programa. Debería encontrarse un impacto nulo del
programa en ese resultado.
 Llevar adelante el análisis de diferencias en diferencias utilizando la
variable de resultados elegida con dos grupos que, según lo que se sabe,
no se vieron afectados por el programa. Debería observarse un impacto
cero del programa.
Otros recursos
• Para material de apoyo del libro y para hipervínculos de recursos adicionales,
se recomienda consultar el sitio web de la Evaluación de Impacto en la Práctica
(http://www.worldbank.org/ieinpractice).
• Para más referencias sobre los supuestos no dichos de las diferencias en dife-
rencias, véase la entrada correspondiente en el blog de Impacto del Desarrollo
del Banco Mundial (http://blogs.worldbank.org/impactevaluations).
De Janvry, A., F. Finan y E. Sadoulet. 2011. “Local Electoral Incentives and Dec-
entralized Program Performance.” The Review of Economics and Statistics 94
(3): 672–85.

DiTella, R. y E. Schargrodsky. 2005. “Do Police Reduce Crime? Estimates Using the
Allocation of Police Forces after a Terrorist Attack.” American Economic Review
94 (1): 115–33.
Duflo, E. 2001. “Schooling and Labor Market Consequences of School Construction
in Indonesia: Evidence from an Unusual Policy Experiment.” American
Galiani, S., P. Gertler y E. Schargrodsky. 2005. “Water for Life: The Impact of the
Privatization of Water Services on Child Mortality.” Journal of Political Economy
113 (1): 83–120.

CAPÍTULO 8
Pareamiento
Construcción de un grupo de comparación

artificial
El método que se describe en este capítulo consiste en técnicas estadísti- Concepto clave
cas a las que se denominarán pareamiento (matching). Los métodos de El pareamiento utiliza
pareamiento se pueden aplicar en el contexto de casi todas las reglas de grandes bases de datos
asignación de un programa, siempre que se cuente con un grupo que no y técnicas estadísticas
haya participado en el mismo. El pareamiento utiliza técnicas estadísticas para construir el mejor
grupo de comparación
para construir un grupo de comparación. Para cada unidad posible, el tra-
posible sobre la base
tamiento intenta encontrar una unidad de no tratamiento (o conjunto de de características
unidades de no tratamiento) que tengan características lo más parecidas observables.
posible. Piénsese en un caso en el que se propone evaluar el impacto de
un programa de capacitación laboral sobre el ingreso y se cuenta con una
base de datos, como los registros de ingreso y las declaraciones tributarias,
que contiene tanto a los individuos que se inscribieron en el programa
como a los individuos que no lo hicieron. El programa que se intenta eva-
luar no tiene reglas de asignación claras (como asignación aleatoria o un
índice de elegibilidad) que explique por qué ciertos individuos se inscri-
bieron en el programa y otros no lo hicieron. En este contexto, los méto-
dos de pareamiento permitirán identificar el conjunto de individuos no
inscritos que más se parece a los individuos tratados, a partir de las carac-
terísticas que ya se tienen en la base de datos. Estos individuos no
159
inscritos pareados luego se convierten en el grupo de comparación que se
emplea para estimar el contrafactual.
La búsqueda de una buena pareja para cada participante del programa
requiere aproximarse todo lo posible a las características que explican la
decisión del individuo de inscribirse en el programa. Desafortunadamente,
en la práctica esto es más difícil. Si la lista de características observables rele-
vantes es muy grande, o si cada característica adopta muchos valores, puede
que sea complicado identificar una pareja para cada una de las unidades del
grupo de tratamiento. A medida que aumenta el número de características o
dimensiones con las que se quiere parear las unidades que se inscribieron en
el programa, puede que uno se encuentre con lo que se denomina la maldición
de la dimensionalidad. Por ejemplo, si solo se consideran tres características
importantes para identificar el grupo de comparación del pareamiento, como
la edad, el sexo y si la persona tiene un diploma de estudios secundarios, es
probable que se encuentren parejas para todos los participantes que se inscri-
bieron en el programa entre el conjunto de aquellos que no se inscribieron
(los no inscritos), pero se corre el riesgo de dejar al margen otras característi-
cas potencialmente importantes. Sin embargo, si se aumenta la lista de carac-
terísticas –por ejemplo, para incluir el número de hijos, el número de años de
estudios, el número de meses que el individuo lleva desempleado, el número
de años de experiencia, etc.– puede que la base de datos no contenga una
buena pareja para la mayoría de los participantes del programa que están
inscritos, a menos que abarque un número muy grande de observaciones. El
gráfico 8.1 ilustra el pareamiento sobre la base de cuatro características: edad,
sexo, meses de desempleo, y diploma de estudios secundarios.
Gráfico 8.1 Pareamiento exacto en cuatro características
Unidades tratadas Unidades no tratadas
Meses Diploma de Meses Diploma de

Edad Género Edad Género
desempleado secundaria desempleado secundaria
19 1 3 0 24 1 8 1
35 1 12 1 38 0 1 0
41 0 17 1 58 1 7 1
23 1 6 0 21 0 2 1
55 0 21 1 34 1 20 0
27 0 4 1 41 0 17 1
24 1 8 1 46 0 9 0
46 0 3 0 41 0 11 1
33 0 12 1 19 1 3 0
40 1 2 0 27 0 4 0

Pareamiento por puntajes de propensión
Por suerte, la maldición de la dimensionalidad puede solucionarse fácil-

mente utilizando un método denominado pareamiento por puntajes de
propensión (propensity scrore-matching) (Rosenbaum y Rubin, 1983). Con
este enfoque, ya no se requiere que se intente parear a cada unidad inscrita
con una unidad no inscrita que tenga exactamente el mismo valor para
todas las características de control observables. En cambio, para cada uni-
dad del grupo de tratamiento y del conjunto de no inscritos, se computa la
probabilidad de que esta unidad se inscriba en el programa (el denominado
puntaje de propensión) sobre la base de los valores observados de sus carac-
terísticas (las variables explicativas). Esta puntuación es un número real
entre 0 y 1 que resume la influencia de todas las características observables
en la probabilidad de inscribirse en el programa. Deberían utilizarse solo
las características observables en la línea de base para calcular el puntaje de
propensión. Esto se debe a que las características post tratamiento pueden
haberse visto afectadas por el propio programa, y el uso de dichas caracte-
rísticas para identificar a un grupo de comparación pareado sesgaría los
resultados. Cuando el tratamiento influye en las características del indivi-
duo y se usan aquellas características para parear, se escoge un grupo de
comparación que se parece al grupo de tratamiento debido al propio trata-
miento. Sin el tratamiento, esas características tendrían un aspecto muy
diferente. Esto incumple el requisito básico de una buena estimación del
contrafactual, a saber: que el grupo de comparación debe ser similar en
todos los aspectos, excepto en el hecho de que el grupo de tratamiento
recibe el tratamiento y el grupo de comparación no lo recibe.
Una vez que se ha computado el puntaje de propensión de todas las
unidades, aquellas del grupo de tratamiento pueden parearse con unidades
en el conjunto de no inscritos que tienen los puntajes de propensión más
cercanos.1 Estas unidades próximas se convierten en el grupo de compara-
ción y se utilizan para producir una estimación del contrafactual. El método
de pareamiento por puntajes de propensión intenta imitar la asignación
aleatoria a los grupos de tratamiento y comparación escogiendo para el
grupo de comparación aquellas unidades que tienen propensiones similares
a las unidades del grupo de tratamiento. Dado que el pareamiento de punta-
jes de propensión no es un método de asignación aleatoria pero intenta
imitarlo, pertenece a la categoría de métodos cuasi-experimentales.
La diferencia promedio en los resultados entre las unidades de trata-
miento, o inscritas, y sus unidades de comparación correspondientes genera
la estimación del impacto del programa. En resumen, el impacto del pro-
grama se estima comparando los resultados promedio de un grupo de
Pareamiento 161
tratamiento, o inscrito, y el resultado promedio del subgrupo de unidades
estadísticamente pareadas, donde el pareamiento se basa en características
observables en los datos disponibles.
Para que el pareamiento por puntajes de propensión produzca estimacio-
nes del impacto de un programa para todas las observaciones tratadas, cada
unidad de tratamiento o inscrita debe parearse con una unidad no inscrita.2
Sin embargo, en la práctica puede ocurrir que, para algunas unidades inscri-
tas, no haya unidades en el conjunto de no inscritos que tengan puntajes de
propensión similares. En términos técnicos, puede que se produzca una
falta de rango común, o falta de superposición, entre los puntajes de propen-
sión del grupo de tratamiento o inscrito y los del conjunto de no inscritos.
El gráfico 8.2 representa un ejemplo de la falta de rango común. En
primer lugar, se estima la probabilidad de que cada unidad de la muestra se
inscriba en el programa a partir de las características observables de esa
unidad, es decir, el puntaje de propensión. El gráfico muestra la distribución
de los puntajes de propensión por separado para los inscritos y no inscritos.
El problema es que estas distribuciones no se superponen perfectamente.
En el medio de la distribución, es relativamente fácil encontrar las parejas
porque hay tanto inscritos como no inscritos con estos niveles de puntajes
de propensión. Sin embargo, los inscritos con puntajes de propensión cerca-
nos a 1 no se pueden parear con ningún no inscrito porque no hay no inscri-
tos con puntajes de propensión tan altos. Hay tan poca similitud entre las
unidades que tienen muchas probabilidades de inscribirse en el programa y
Gráfico 8.2 Pareamiento por puntajes de propensión y rango común
No inscritos Inscritos
Densidad
Rango común
0 Puntaje de propensión 1

las unidades no inscritas que no se puede encontrar una buena pareja para
ellas. De la misma manera, los no inscritos con puntajes de propensión cer-
canos a 0 no pueden parearse con ningún inscrito porque no hay inscritos
que tengan puntajes de propensión tan bajos. Por lo tanto, en los extremos,
o colas, de la distribución del puntaje de propensión aparece una falta de
rango común. En este caso, el procedimiento de pareamiento estima el
efecto local promedio del tratamiento (LATE, por sus siglas en inglés) para
las observaciones sobre el rango común.
Los pasos que hay que seguir cuando se aplica un pareamiento por pun-
tajes de propensión se resumen en Jalan y Ravaillon (2003).3 Primero, se
necesitarán encuestas representativas y altamente comparables en las que
se puedan identificar las unidades que se inscribieron en el programa y las
que no lo hicieron. Segundo, se reúnen las dos muestras y se estima la pro-
babilidad de que cada individuo se inscriba en el programa, a partir de las
características individuales observables en la encuesta. Este paso produce el
puntaje de propensión. Tercero, se limita la muestra a unidades para las que
aparece un rango común en la distribución del puntaje de propensión.
Cuarto, para cada unidad inscrita, se identifica un subgrupo de unidades con
puntajes de propensión similares. Quinto, se comparan los resultados de las
unidades de tratamiento, o inscritas, y las parejas de las unidades de compa-
ración, o no inscritas. La diferencia de los resultados promedio de estos dos
subgrupos es la medida del impacto que se puede atribuir al programa para
esa observación específica tratada. Sexto, la media de estos impactos indivi-
duales arroja una estimación del efecto local promedio del tratamiento. En
la práctica, los programas estadísticos habitualmente usados incluyen
comandos que realizan los pasos 2 a 6 de manera automática.
En general, es importante recordar tres cuestiones esenciales acerca del
pareamiento. En primer lugar, los métodos de pareamiento solo pueden
utilizar características observables para construir grupos de comparación,
dado que las características no observables no se pueden considerar. Si hay
alguna característica no observable que influye en la inscripción o no
inscripción de la unidad en el programa, y que también influye en el resul-
tado, las estimaciones de impacto obtenidas con el grupo de comparación
pareado estarían sesgadas. Para que el resultado del pareamiento no esté
sesgado, requiere un supuesto de mucho peso, a saber: que no hay diferen-
cias no observables en el grupo de tratamiento y de comparación que tam-
bién estén asociadas con los resultados de interés.
Segundo, el pareamiento debe realizarse utilizando solo características
que no estén afectadas por el programa. La mayoría de las características
que se miden después del comienzo del programa no pertenecerían a esta
categoría. Si los datos de línea de base (antes de la intervención) no están
disponibles y los únicos datos son los existentes después de que la
Pareamiento 163
intervención ha comenzado, las únicas características que se podrán utilizar
para construir una muestra pareada serán aquellas (normalmente pocas)
características que no se ven afectadas por un programa, como la edad y el
sexo. Aunque se quisiera parear utilizando un conjunto mucho más rico de
características, entre ellas los resultados de interés, no se podrá hacerlo por-
que aquellas están potencialmente afectadas por la intervención. No se reco-
mienda el pareamiento basado únicamente en características posteriores a
la intervención. Si hay datos de línea de base disponibles, se puede realizar
el pareamiento sobre la base de un conjunto más rico de características,
entre ellas, los resultados de interés. Dado que los datos se recopilan antes
de la intervención, el programa no puede haber afectado aquellas variables
anteriores a la misma. Sin embargo, si hay datos de línea de base sobre los
resultados disponibles, no se debería utilizar el método de pareamiento solo,
sino que habría que combinarlo con diferencias en diferencias para reducir
el riesgo de sesgo. Este procedimiento se detallará en la próxima sección.
Tercero, los resultados de la estimación del método de pareamiento
solo son tan buenos como las características que se utilizan para el parea-
miento. Si bien es importante poder parear utilizando un gran número de
características, lo es aún más poder parear sobre la base de características
que determinan la inscripción. Cuanto más se comprenda acerca de los cri-
terios utilizados para la selección de los participantes, en mejores condicio-
nes se estará de construir el grupo de comparación.
La combinación del pareamiento con otros

métodos
Aunque la técnica de pareamiento requiere un volumen importante de

datos y tiene un riesgo significativo de sesgo, ha sido utilizada para evaluar
programas de desarrollo en una amplia gama de contextos. Los usos más
convincentes del pareamiento son aquellos que combinan el pareamiento
con otros métodos y aquellos que utilizan el método de control sintético. En
esta sección, se analizarán las diferencias en diferencias pareadas y el
método de control sintético.
Diferencias en diferencias pareadas
Cuando dispone de datos de línea de base sobre los resultados, el pareamiento

se puede combinar con diferencias en diferencias para reducir el riesgo de
sesgo en la estimación. Como se ha analizado, el simple pareamiento con
puntajes de propensión no puede dar cuenta de características no observa-
bles que podrían explicar por qué un grupo decide inscribirse en un
programa, y eso también podría afectar los resultados. El pareamiento
combinado con diferencias en diferencias al menos tiene en cuenta cual-
quier característica no observable que sea constante a lo largo del tiempo
entre ambos grupos. Se implementa de la siguiente manera:
1. El pareamiento debe realizarse a partir de características observables de
la línea de base (como se ha señalado).
2. Para cada unidad inscrita, se debe calcular el cambio en los resultados
entre los períodos antes y después (primera diferencia).
3. Para cada unidad inscrita, calcúlese el cambio en los resultados entre los
períodos antes y después para la comparación pareada de esta unidad
(segunda diferencia).
4. Réstese la segunda diferencia de la primera diferencia, es decir, aplíquese
el método de diferencias en diferencias.
5. Por último, calcúlese un promedio de esas dobles diferencias.
Los recuadros 8.1 y 8.2 proporcionan ejemplos de evaluaciones que utiliza-
ron el método de diferencias en diferencias pareadas en la práctica.
Recuadro 8.1: Diferencias en diferencias pareadas: caminos

rurales y desarrollo del mercado local en Vietnam
En Vietnam, Mu y Van de Walle (2011) usaron de comparación. Utilizando datos de una
el pareamiento de puntajes de propensión en encuesta de línea de base, encontraron una
combinación con el método de diferencias diversidad de factores a nivel de la comuna
en diferencias para estimar el impacto de un que determinaba si un camino en ella era
programa de caminos rurales en el desarrollo seleccionado para el programa, como el
del mercado local a nivel de la comuna. Entre tamaño de la población, los porcentajes de
1997 y 2001, el gobierno vietnamita rehabi- las minorías étnicas, la calidad de vida, la
litó 5.000 km de caminos rurales. Los cami- densidad de los caminos existentes y la pre-
nos fueron seleccionados según criterios de sencia de transporte de pasajeros. Estimaron
costo y de densidad demográfica. los puntajes de propensión basándose en
Dado que las comunas que se beneficia- estas características y limitaron el tamaño
ron de la reparación de caminos no fueron de la muestra a la zona de rango común.
seleccionadas de forma aleatoria, los investi- Esto dio como resultado 94 comunas de
gadores utilizaron el pareamiento de punta- tratamiento y 95 comunas de comparación.
jes de propensión para construir un grupo Para limitar aún más el sesgo de selección
Pareamiento 165
Recuadro 8.1: Diferencias en diferencias pareadas: caminos rurales y desarrollo del mercado local en
Vietnam (continúa)
potencial, los investigadores utilizaron dife- actividades agrícolas a actividades más rencias
en diferencias para estimar el cam- relacionadas con los servicios, como la bio en
las condiciones del mercado local. confección de ropa y las peluquerías. Sin
Dos años después de iniciado el pro- embargo, los resultados variaban considera-
grama, los resultados indicaron que la blemente entre las comunas. En las más
rehabilitación de caminos produjo impactos pobres, los impactos tendían a ser mayores
positivos significativos en la presencia y debido a los menores niveles de desarrollo
la frecuencia de los mercados locales y en la inicial del mercado. Los investigadores lle-
disponibilidad de servicios. En las comu- garon a la conclusión de que los proyectos
nas de tratamiento se desarrolló un 10%de mejora de caminos pequeños pueden más
de nuevos mercados que en las comu- tener impactos más importantes si se foca-
nas de comparación. En las primeras era lizan en zonas con un desarrollo de mercado
más habitual que los hogares cambiaran de inicialmente bajo.
Fuente: Mu y Van de Walle (2011).
Recuadro 8.2: Pareamiento de diferencias en diferencias: suelos

de cemento, salud infantil y felicidad de las madres en México
El Programa Piso Firme de México ofrece a programa. Para mejorar la comparabilidad
los hogares con suelos de tierra hasta 50 m2 entre los grupos de tratamiento y compara-
de piso de cemento (véase el recuadro 2.1). ción, los investigadores limitaron su muestra
Piso Firme comenzó como un programa a hogares de las ciudades vecinas situadas
local en el estado de Coahuila, pero fue justo a ambos lados de la frontera entre los
adoptado a nivel nacional. Cattaneo et al. dos estados. En esta muestra, utilizaron téc-
(2009) aprovecharon la variación geográfica nicas de pareamiento para seleccionar los
para evaluar el impacto de esta iniciativa grupos de tratamiento y comparación que
para la mejora de la vivienda a gran escala en eran más similares. Las características pre-
la salud y en los resultados del bienestar. vias al tratamiento que se usaron fueron el
Los investigadores utilizaron el método porcentaje de hogares con suelos de tierra,
de diferencias en diferencias junto con el el número de hijos pequeños y el número de
pareamiento para comparar a los hogares de hogares en cada bloque.
Coahuila con familias similares en el estado Además del pareamiento, los auto-
vecino de Durango, que en el momento de la res utilizaron variables instrumentales para
encuesta todavía no había implementado el obtener estimaciones del LATE a partir de

Recuadro 8.2: Pareamiento de diferencias en diferencias: suelos de cemento, salud infantil y felicidad de
las madres en México (continúa)
las estimaciones del efecto de la intención madres, que declararon un aumento del
de tratar. Con la oferta de un piso de 59% en la satisfacción con la vivienda, un
cemento como variable instrumental para incremento del 69% en la satisfacción con
determinar si los hogares tenían realmente la calidad de vida, una reducción del 52%
suelos de cemento encontraron que el en la escala de evaluación de la depresión
programa producía una reducción del y una disminución del 35% en una escala
18,2% de la presencia de parásitos, una de evaluación del estrés percibido.
disminución del 12,4% de la prevalencia Cattaneo et al. (2009) concluyeron que
de casos de diarrea y una baja del 19,4% Piso Firme tiene un impacto absoluto mayor
de la prevalencia de anemia. Además, en el desarrollo cognitivo infantil con un
pudieron utilizar la variabilidad en el total costo menor que el programa de transferen-
del espacio del suelo realmente recubierto cias condicionadas de efectivo a gran escala
de cemento para predecir que una com- de México, Progresa-Oportunidades, y que
pleta sustitución de los pisos de tierra por otros programas comparables de suplemen-
pisos de cemento en un hogar produciría tos nutricionales y estimulación cognitiva
una reducción del 78% de las infecciones temprana. Los pisos de cemento también
parasitarias, una disminución del 59% de evitan mejor la proliferación de infecciones
los casos de diarrea, una reducción del parasitarias que el tratamiento habitual de
81% de la anemia y una mejora del 36% al eliminación de parásitos. Los autores afir-
96% en el desarrollo cognitivo de los man que los programas para reemplazar los
niños. Los autores también recopilaron suelos de tierra con suelos de cemento tie-
datos sobre el bienestar de los adultos y nen probabilidades de mejorar la salud de
llegaron a la conclusión de que los pisos los niños de manera costo-efectiva en con-
de cemento hacen más felices a las textos similares.
Fuente: Cattaneo et al. (2009).
El método de control sintético
El método de control sintético permite utilizar la estimación del impacto

en contextos donde una única unidad (como un país, una empresa o un
hospital) es objeto de una intervención o se expone a un evento. En lugar
de comparar esta unidad tratada con un grupo de unidades no tratadas,
el método usa información sobre las características de la unidad tratada
y las unidades no tratadas para construir una unidad de comparación
“sintética” o artificial, ponderando cada unidad no tratada de tal manera
que la unidad de comparación sintética se asemeje lo más posible a la
unidad tratada. Esto requiere una extensa serie de observaciones de las
características de la unidad tratada y de las unidades no tratadas a lo
Pareamiento 167
largo del tiempo. Esta combinación de unidades de comparación en una
unidad sintética proporciona una mejor comparación para la unidad
tratada que cualquier unidad no tratada individualmente. El recuadro 8.3
presenta un ejemplo de una evaluación para la cual se empleó el método
de control sintético.
Recuadro 8.3: El método de control sintético: los efectos

económicos de un conflicto terrorista en España
Abadie y Gardeazábal (2003) utilizaron el crecimiento económico. Por lo tanto, la
método de control sintético para investigar comparación entre el crecimiento del PIB
los efectos económicos de un conflicto de la economía vasca y del resto de España
terrorista en el País Vasco. A comienzos de reflejaría tanto el efecto del terrorismo
los años setenta el País Vasco era una como el efecto de estas diferencias en los
de las regiones más ricas de España. Sin factores determinantes del crecimiento
embargo, hacia finales de los años noventa, económico antes del comienzo del terro-
después de 30 años de conflicto, había rismo. En otras palabras, el enfoque de
caído hasta la sexta posición en el producto diferencias en diferencias produciría resul-
interno bruto (PIB) per cápita. En los albo- tados sesgados del impacto del terrorismo
res de los atentados terroristas a comien- en el crecimiento económico del País
zos de los años setenta, el País Vasco Vasco. Para lidiar con esta situación, los
era diferente de otras regiones de España autores utilizaron una combinación de otras
en características que, según se piensa, regiones españolas, de modo de construir
están relacionadas con el potencial de una región de comparación “sintética”.
Fuente: Abadie y Gardeazábal (2003).
Evaluación del impacto del HISP: la utilización de técnicas

de pareamiento
Después de conocer las técnicas de pareamiento, puede que uno se pre-

gunte si podría usarlas para estimar el impacto del Programa de Subsidios
de Seguros de Salud (HISP, por sus siglas en inglés). Por ejemplo, se
decide utilizar técnicas de pareamiento para seleccionar un grupo de
hogares no inscritos que parecen similares a los hogares inscritos a partir
de las características observables de la línea de base. Para hacer esto, se
utiliza el paquete de pareamiento del software estadístico. Primero, se
debe estimar la probabilidad de que un hogar se inscriba en el programa

sobre la base de los valores observados de las características (las variables
explicativas), como la edad del jefe de hogar y del cónyuge, su nivel de
estudios, si el jefe del hogar es mujer, si el hogar es indígena, etc.
A continuación, se llevará a cabo un pareamiento considerando dos
escenarios. En el primero, hay un gran conjunto de variables para pre-
decir la inscripción, entre ellas las características socioeconómicas del
hogar. En el segundo, hay escasa información para predecir la inscrip-
ción (solo el nivel de estudios y la edad del jefe de hogar). Como se
muestra en el cuadro 8.1, la probabilidad de que un hogar se inscriba en
el programa es menor si el jefe de hogar es mayor, si tiene más estudios,
si es mujer, o si el hogar cuenta con baño o posee un terreno más
grande. Por el contrario, ser indígena, tener más miembros en el hogar,
tener un suelo de tierra y vivir más lejos de un hospital son factores que
Cuadro 8.1 Estimación del puntaje de propensión a partir de

características observables de la línea de base
Todo el Conjunto
conjunto de limitado de
variables variables
Variable dependiente: inscritos = 1 explicativas explicativas
Variables explicativas: características

observables en la línea de base Coeficiente Coeficiente
Edad del jefe del hogar (años) −0,013** −0,021**
Edad del cónyuge (años) −0,008** −0,041**
Nivel educativo del jefe del hogar (años) −0,022**
Nivel educativo del cónyuge (años) −0,016*
Jefe del hogar es mujer =1 −0,020
Indígena = 1 0,161**
Número de miembros del hogar 0,119**
Suelo de tierra = 1 0,376**
Baño = 1 −0,124**
Hectáreas de terreno −0,028**
Distancia del hospital (km) 0,002**
Constante −0,497** 0,554**
Nota: Regresión probit. La variable dependiente equivale a 1 si el hogar está inscrito en el HISP y 0
en caso contrario. Los coeficientes representan la contribución de cada variable explicativa a la
probabilidad de que un hogar se inscriba en el HISP.
Nivel de significancia: * = 5%; ** = 1%.
Pareamiento 169
aumentan la probabilidad de que un hogar se inscriba en el programa.
Por lo tanto, en general, parecería que los hogares más pobres y con
menor nivel educativo tienen más probabilidades de inscribirse, lo cual
es una buena noticia para un programa que se focaliza en las personas
pobres.
Ahora que el software ha estimado la probabilidad de que todos los
hogares se inscriban en el programa (el puntaje de propensión), se veri-
fica la distribución del puntaje de propensión para los hogares de compa-
ración inscritos y pareados. El gráfico 8.3 muestra que el rango común
(cuando se utiliza todo el conjunto de variables explicativas) se extiende
por toda la distribución del puntaje de propensión. De hecho, ninguno de
los hogares inscritos queda marginado de la zona de rango común. En
otras palabras, se puede encontrar un hogar de comparación como pareja
para cada uno de los hogares inscritos.
Gráfico 8.3 Pareamiento para el HISP: rango común
3
Densidad
0
0 ,2 ,4 ,6
Puntaje de propensión
No inscritos Inscritos
Se decide utilizar el pareamiento de vecino más próximo, es decir, se

le pide al software que, para cada hogar inscrito, encuentre el hogar no
inscrito que tiene el puntaje de propensión más cercano al hogar inscrito.
El software limita la muestra a aquellos hogares en los grupos de inscritos
y no inscritos para los que puede encontrar una pareja en el otro grupo.

Para obtener la estimación de impacto utilizando el método de parea-
miento, primero se calcula el impacto para cada hogar inscrito indivi-
dualmente (utilizando el hogar de comparación pareado de cada hogar) y
luego se calcula el promedio de esos impactos individuales. El cuadro 8.2
muestra que el impacto estimado al aplicar este procedimiento es una
reducción de US$9,95 en los gastos en salud de los hogares.
Por último, el software también permite computar el error estándar en
la estimación de impacto utilizando la regresión lineal (cuadro 8.3).4
Cuadro 8.2 Evaluación del HISP: pareamiento de las características de

línea de base y comparación de medias
Inscritos Comparación pareada Diferencia

Gasto en salud de 7,84 17,79 −9,95
los hogares (US$) (usando el conjunto de
variables explicativas)
19,9 −11,35
(utilizando un conjunto
limitado de variables
explicativas)
Nota: Este cuadro compara los gastos en salud promedio de los hogares en los hogares inscritos
y las parejas de hogares de comparación.
Cuadro 8.3 Evaluación del HISP: pareamiento de las características de

línea de base y análisis de regresión
Regresión lineal Regresión lineal

(pareamiento en todo (pareamiento en
el conjunto de conjunto limitado de
variables explicativas) variables explicativas)
Impacto estimado en
los gastos en salud −9,95** −11,35**
de los hogares (US$) (0,24) (0,22)

Nivel de significancia: ** = 1%.
Se observa también que en los datos de las encuestas se cuenta con

información de los resultados de línea de base, de modo que se deciden
utilizar las diferencias en diferencias pareadas además de usar todo el
conjunto de variables explicativas. Es decir, se calcula la diferencia en los
gastos en salud de los hogares en el seguimiento entre hogares inscritos y
Pareamiento 171
hogares de comparación pareados; se computa la diferencia en los gastos
en salud de los hogares en la línea de base entre los hogares inscritos y las
parejas de comparación; y luego se calcula la diferencia entre estas dos
diferencias. El cuadro 8.4 muestra el resultado de este enfoque de dife-
rencias en diferencias pareadas.
Cuadro 8.4 Evaluación del HISP: método de diferencias en diferencias

combinado con pareamiento en las características de línea de base
Comparaciones
pareadas
utilizando el
conjunto de
variables
Inscritos explicativas Diferencia
Gastos en Seguimiento 7,84 17,79 −9,95
salud de los Línea de base
14,49 15,03 0,54
hogares
(US$) Diferencias
en
diferencias
pareadas
=−9,41**
(0,19)
Nota: Los errores estándar están entre paréntesis y el cálculo se realizó utilizando una
regresión lineal.
Nivel de significancia: ** = 1%.
Pregunta HISP 7
A. ¿Cuáles son los supuestos básicos necesarios para aceptar estos resul-
tados sobre la base del método de pareamiento?
B. ¿Por qué los resultados del método de pareamiento son diferentes si se
utiliza todo el conjunto vs. el conjunto limitado de variables
explicativas?
C. ¿Qué sucede cuando se compara el resultado del método de parea-
miento con el resultado de la asignación aleatoria? ¿Por qué los resul-
tados son tan diferentes en el pareamiento con un conjunto limitado
de variables explicativas? ¿Por qué el resultado es más parecido
cuando se realiza el pareamiento en todo el conjunto de variables
explicativas?
D. A partir del resultado del método de pareamiento, ¿debería ampliarse
el HISP a escala nacional?

Limitaciones del método de pareamiento
Aunque los procedimientos de pareamiento se pueden aplicar en numero-

sos contextos, independientemente de las reglas de asignación de un pro-
grama, tienen varias limitaciones importantes. En primer lugar, requieren
conjuntos de datos amplios sobre grandes muestras de unidades, e incluso
cuando estos están disponibles, puede que se produzca una falta de rango
común entre el grupo de tratamiento, o inscrito, y el conjunto de no parti-
cipantes. En segundo lugar, solo se puede aplicar el pareamiento basán-
dose en características observables; por definición, no se pueden
incorporar las características no observables en el cálculo del puntaje de
propensión. Por lo tanto, para que el procedimiento de pareamiento iden-
tifique un grupo de comparación válido, no deben existir diferencias siste-
máticas en las características no observables entre las unidades de
tratamiento y las unidades de comparación pareadas5 que podrían influir
en el resultado (Y). Dado que no se puede demostrar que existen esas
características no observables que influyen en la participación y en los
resultados, se debe suponer que no existen. Normalmente se trata de un
supuesto de mucho peso. A pesar de que el pareamiento contribuye a con-
trolar por características básicas observables, nunca se puede descartar el
sesgo que nace de las características no observables. En resumen, el
supuesto de que no se ha producido un sesgo de selección debido a las
características no observables es de mucho peso y, lo que es más proble-
mático, no puede comprobarse.
El pareamiento por sí solo suele ser menos robusto que los otros méto-
dos de evaluación analizados, dado que requiere el fuerte supuesto de
que no hay características no observables que influyan simultáneamente
en la participación en el programa y en sus resultados. Por otro lado, la
asignación aleatoria, la variable instrumental y el diseño de regresión
discontinua no requieren el supuesto indemostrable de que no hay tales
variables no observables. Tampoco requieren muestras tan grandes o
características básicas tan amplias como el pareamiento por puntajes de
propensión.
En la práctica, los métodos de pareamiento suelen usarse cuando no es
posible recurrir a las opciones de asignación aleatoria, variable instrumental
y diseño de regresión discontinua. El denominado pareamiento ex post es
muy riesgoso cuando no hay datos de línea de base disponibles sobre el
resultado de interés o de las características básicas. Si una evaluación utiliza
datos de encuestas que fueron recopilados después del comienzo del pro-
grama (es decir, ex post) para deducir las características básicas de las
Pareamiento 173
unidades de la línea de base y luego emparejar el grupo tratado con un grupo
de comparación empleando esas características deducidas, puede empare-
jar involuntariamente basándose en características que también fueron
afectadas por el programa; en ese caso, el resultado de estimación sería invá-
lido o estaría sesgado.
Por el contrario, cuando se dispone de datos de línea de base, el parea-
miento basado en las características básicas puede ser muy útil si se
combina con otras técnicas, como el método de diferencias en diferen-
cias, lo que permite corregir por las diferencias entre los grupos que son
fijas a lo largo del tiempo. El pareamiento también es más fiable cuando
se conocen las reglas de asignación del programa y las variables funda-
mentales, en cuyo caso el pareamiento se puede llevar a cabo con esas
variables.
A estas alturas, es probable que quede claro que las evaluaciones de
impacto se diseñan mejor antes de que un programa comience a ser imple-
mentado. Una vez que el programa ha comenzado, si hay que influir en cómo
se asigna y no se han recopilado datos de línea de base, habrá pocas o ninguna
opción rigurosa para la evaluación de impacto.
Verificación: el pareamiento
El pareamiento se basa en el supuesto de que las unidades inscritas y no

inscritas son similares en términos de cualquier variable no observable que
podría influir tanto en la probabilidad de participar en el programa como en
el resultado.
 ¿La participación en el programa está determinada por variables que no
se pueden observar? Esto no se puede comprobar directamente, de modo
que para orientarse habrá que fiarse de la teoría, del sentido común y del
conocimiento adecuado del contexto de la evaluación de impacto.
 ¿Las características observables están bien equilibradas entre los subgru-
pos pareados? Compárense las características observables de cada grupo
de tratamiento y su grupo de unidades de comparación pareados en la
línea de base.
 ¿Se puede encontrar una unidad de comparación pareada para cada uni-
dad de tratamiento? Verifíquese si hay un rango común suficiente en la
distribución de los puntajes de propensión. Las pequeñas zonas de rango
común o superposición señalan que las personas inscritas y no inscritas
son muy diferentes, y aquello arroja dudas sobre si el pareamiento es un
método creíble.
Otros recursos
• Para material de apoyo relacionado con este libro y para hipervínculos de más
recursos, se recomienda consultar el sitio web de la Evaluación de Impacto en
la Práctica (http://www.worldbank.org/ieinpractice).
• Para más información, consúltese P. Rosenbaum (2002), Observational Studies
(2da. edición), Springer Series in Statistics. Nueva York: Springer-Verlag.
• Para más información sobre la implementación del pareamiento por puntajes
de propensión, véase C. Heinrich, A. Maffioli y G. Vásquez (2010), “A Primer
for Applying Propensity-Score Matching. Impact-Evaluation Guidelines.”
Nota técnica del BID-TN-161. Washington, D.C.: BID.
Notas
1. Nota técnica: en la práctica, se utilizan muchas definiciones de lo que constituye
la unidad más próxima o cercana para llevar a cabo un pareamiento. Las
unidades de control más cercanas se pueden definir sobre la base de una
estratificación del puntaje de propensión –la identificación de los vecinos más
próximos de la unidad de tratamiento, considerando la distancia, dentro de un
determinado radio– o utilizando técnicas de núcleo. Se considera una buena
práctica verificar la robustez de los resultados del pareamiento empleando
diversos algoritmos de pareamiento. Para más detalles, véase Rosenbaum
(2002).
2. En este libro, el análisis del pareamiento se centra en un pareamiento de uno a
uno. No se analizarán otros tipos de pareamiento, como el de uno a varios o el de
reemplazo/sin reemplazo. Sin embargo, en todos los casos el marco conceptual
descrito aquí seguiría vigente.
3. En Rosenbaum (2002) se puede encontrar un análisis detallado del parea-
miento.
4. Nota técnica: cuando las puntuaciones de propensión de las unidades inscritas
no están plenamente cubiertas por el área de rango común, los errores estándar
deberían estimarse utilizando un muestreo autodocimante en lugar de una
regresión lineal.
5. Para los lectores que tienen conocimientos de econometría, esto significa que la
participación es independiente de los resultados, dadas las características
básicas utilizadas para realizar el pareamiento.
Abadie, A. y J. Gardeazábal. 2003. “The Economic Costs of Conflict: A Case Study
of the Basque Country.” American Economic Review 93 (1): 113–32.
Cattaneo, M. D., S. Galiani, P. J. Gertler, S. Martínez y R. Titiunik. 2009. “Housing,
Health, and Happiness.” American Economic Journal: Economic Policy 1 (1):
75–105.
Pareamiento 175
Heinrich, C., A. Maffioli y G. Vázquez. 2010. “A Primer for Applying Propensity-
Score Matching. Impact-Evaluation Guidelines.” Nota técnica del BID-TN-161.
Washington, D.C.: BID.
Jalan, J. y M. Ravallion. 2003. “Estimating the Benefit Incidence of an Antipoverty
Program by Propensity-Score Matching.” Journal of Business & Economic
Statistics 21 (1): 19–30.
Mu, R. y D. Van de Walle. 2011. “Rural Roads and Local Market Development in
Vietnam.” Journal of Development Studies 47 (5): 709–34.
Rosenbaum, P. 2002. Observational Studies (2da. edición), Springer Series in
Statistics. Nueva York: Springer-Verlag.
Rosenbaum, P. y D. Rubin. 1983. “The Central Role of the Propensity Score in
Observational Studies of Causal Effects.” Biometrika 70 (1): 41–55.

CAPÍTULO 9
Cómo abordar las diftcultades

metodológicas
Efectos heterogéneos del tratamiento
Ya se ha visto que la mayoría de los métodos de evaluación de impacto solo

producen estimaciones válidas del contrafactual bajo supuestos específicos.
El principal riesgo de cualquier método es que sus supuestos fundamentales
no sean válidos, lo que genera estimaciones sesgadas del impacto del pro-
grama que se evalúa. Sin embargo, también hay otros riesgos comunes en la
mayoría de las metodologías que se han analizado. En este capítulo, se exa-
minarán los principales.
Un tipo de riesgo surge cuando se estima el impacto de un programa en
todo un grupo y los resultados ocultan algunas diferencias en las respuestas al
tratamiento de los diferentes receptores, es decir, los efectos heterogéneos del
tratamiento. La mayoría de los métodos de evaluación de impacto supone que
un programa influye en los resultados de una manera simple y lineal para
todas las unidades de la población.
Sin embargo, si se piensa que diferentes subpoblaciones pueden haber
vivido el impacto de un programa de manera muy diferente, puede que con-
venga tener muestras estratificadas para cada subpoblación. Supóngase,
por ejemplo, que a uno le interesa conocer el impacto de un programa de
comida escolar en las niñas, pero solo el 10% del alumnado está confor-
mado por niñas. En ese caso, puede que incluso una muestra aleatoria
177
“grande” de alumnos no contenga un número suficiente de niñas como para
estimar el impacto del programa en ellas. Para el diseño de la muestra de
evaluación, convendría estratificar la misma basándose en el sexo, e incluir
un número suficientemente grande de niñas a fin de poder detectar un
determinado tamaño del efecto.
Efectos no intencionados en la conducta
Cuando se lleva a cabo una evaluación de impacto, también puede suceder

que se induzca a respuestas no intencionadas en la conducta de la población
que se estudia, a saber:
• El efecto Hawthorne ocurre cuando debido al mero hecho de saber que
están siendo observadas, las unidades se comportan de manera diferente
(véase el recuadro 9.1).
Recuadro 9.1: Cuentos tradicionales de la evaluación de impacto:

el efecto Hawthorne y el efecto John Henry
La expresión efecto Hawthorne se refiere a fueron objeto de polémicas y en alguna
los experimentos llevados a cabo entre medida se los desacreditó, la expresión
1924 y 1932 en el Hawthorne Works, una efecto Hawthorne permaneció.
fábrica de equipos eléctricos en el estado En cuanto al efecto John Henry, la expre-
de Illinois. Los experimentos probaron el sión fue acuñada por Gary Saretsky en 1972
impacto del cambio en las condiciones de para referirse al legendario héroe popular
trabajo (como aumentar o disminuir la inten- John Henry, el “hombre del taladro de
sidad de la luz) en la productividad de los acero” encargado de horadar las rocas con
trabajadores, y llegaron a la conclusión de un taladro de acero para preparar los aguje-
que cualquier cambio en las condiciones de ros de los explosivos durante la construc-
trabajo (más o menos luz, más o menos ción de un túnel de ferrocarril. Según cuenta
períodos de descanso, etc.) producía un la leyenda, cuando Henry supo que se le
aumento de la productividad. Esto se inter- comparaba con un taladro de acero, trabajó
pretó como un efecto de observación, esforzándose mucho más para superar a la
es decir, los trabajadores que formaban propia máquina. Desafortunadamente, falle-
parte del experimento se vieron a sí mis- ció como consecuencia de ello. Sin embargo,
mos como algo especial y su productividad la expresión sigue vigente para describir
aumentó debido a esto, y no debido al cam- cómo las unidades de comparación a veces
bio en las condiciones de trabajo. Si bien los se esfuerzan más para compensar el hecho
experimentos originales posteriormente de no ser objeto de un tratamiento.
Fuentes: Landsberger (1958).

• El efecto John Henry se produce cuando las unidades de comparación se
esfuerzan más para compensar el hecho de no ser objeto del tratamiento
(véase el recuadro 9.1).
• La anticipación puede generar otro tipo de efecto no intencionado en la
conducta. En una aleatorización por fases, puede que las unidades del
grupo de comparación esperen recibir el programa en el futuro y comien-
cen a cambiar su comportamiento antes de que el programa realmente se
materialice.
• El sesgo por sustitución es otro efecto en la conducta que influye en el
grupo de comparación: las unidades que no fueron seleccionadas para ser
objeto del programa pueden encontrar buenos sustitutos gracias a su
propia iniciativa.
Las respuestas en la conducta que afectan de manera desproporcionada al
grupo de comparación constituyen un problema porque pueden socavar la
validez interna de los resultados de la evaluación, aunque se use la asigna-
ción aleatoria como método de evaluación. Un grupo de comparación que se
esfuerza más para compensar el hecho de no ser objeto de un tratamiento, o
que cambia su conducta en previsión del programa, no es una buena repre-
sentación del contrafactual.
Si se tiene algún motivo para creer que se pueden producir estas respuestas
no intencionadas en la conducta, aveces una opción es constituir otros grupos
de comparación que no se vean en absoluto afectados por la intervención, es
decir, un grupo que permita explícitamente comprobar dichas respuestas.
También puede que sea una buena idea recopilar datos cualitativos con el
fin de entender mejor las respuestas en la conducta.
Imperfección del cumplimiento
La imperfección del cumplimiento es la discrepancia entre la condición asig-

nada del tratamiento y la condición real del mismo. La imperfección del
cumplimiento se produce cuando algunas unidades asignadas al grupo de
tratamiento no reciben tratamiento, y cuando algunas unidades asignadas
al grupo de comparación reciben tratamiento. En el capítulo 5 se estudia la
imperfección del cumplimiento en referencia a la asignación aleatoria, si
bien la imperfección del cumplimiento también se puede producir con el
diseño de regresión discontinua (como se señala en el capítulo 6) y con dife-
rencias en diferencias (capítulo 7). Antes de que se puedan interpretar las
estimaciones de impacto que genera cualquier método, es necesario saber si
se ha producido una imperfección del cumplimiento en el programa.
Cómo abordar las dificultades metodológicas 179
La imperfección del cumplimiento puede tener lugar de diversas
maneras:
• No todos los participantes previstos participan realmente en el programa.

A veces, algunas unidades asignadas a un programa deciden no participar.
• Algunos participantes previstos son excluidos del programa debido a

errores administrativos o de ejecución.
• Se ofrece el programa por error a algunas unidades del grupo de compa-

ración, que se inscriben en él.
• Algunas unidades del grupo de comparación consiguen participar en el

programa a pesar de que no se les ofrece.
• El programa se asigna a partir del índice continuo de elegibilidad, pero

no se aplica estrictamente el umbral de elegibilidad.
• Se produce una migración selectiva en función de la condición del trata-
miento. Por ejemplo, puede que la evaluación compare los resultados en
los municipios tratados y no tratados, pero las personas pueden decidir
trasladarse a otro municipio si no les agrada la condición de tratamiento
de su municipio.
En general, ante una situación de imperfección del cumplimiento, los

métodos normales de evaluación de impacto producen estimaciones de la
intención de tratar. Sin embargo, se pueden obtener estimaciones del tra-
tamiento en los tratados a partir de las estimaciones de la intención de
tratar mediante el método de variables instrumentales.
En el capítulo 5 se explicó la idea básica para lidiar con la imperfección
del cumplimiento en el contexto de la asignación aleatoria. Mediante un
ajuste del porcentaje de cumplidores en la muestra de la evaluación, se
pudo recuperar el efecto local promedio del tratamiento en los cumplidores
a partir de la estimación de la intención de tratar. Este “ajuste” puede
ampliarse a otros métodos mediante la aplicación del enfoque más general
de variables instrumentales. La variable instrumental contiene una fuente
externa de variación que ayuda a eliminar o corregir el sesgo que puede
derivarse de la imperfección en el cumplimiento. En el caso de la asignación
aleatoria con imperfección en el cumplimiento, se utiliza una variable 0/1
(denominada dummy) que asume el valor de 1 si la unidad estaba asignada
originalmente al grupo de tratamiento, y de 0 si la unidad estaba original-
mente asignada al grupo de comparación. Durante la fase de análisis, la
variable instrumental se usa con frecuencia en el contexto de una regresión
en dos fases que permite identificar el impacto del tratamiento en los
cumplidores.
La lógica del método de variable instrumental puede aplicarse al contexto
de otros métodos de evaluación:
• En el contexto del diseño de regresión discontinua, debe utilizarse una

variable 0/1 que indique si la unidad se encuentra en el lado no elegible o
elegible de la puntuación límite.
• En el contexto de la migración selectiva, una posible variable instrumen-
tal para la ubicación del individuo después del comienzo del programa
sería la ubicación del individuo antes del anuncio del programa.
A pesar de la posibilidad de abordar la imperfección en el cumplimiento

utilizando variables instrumentales, es necesario recordar tres puntos:
1. Desde un punto de vista técnico, no es deseable que una gran parte del
grupo de comparación se inscriba en el programa. A medida que
aumenta la proporción del grupo de comparación que se inscribe en el
programa, la fracción de “cumplidores” en la población disminuirá, y el
efecto local promedio del tratamiento estimado con el método de varia-
ble instrumental será válido solo para una fracción cada vez más
pequeña de la población de interés. Si esto se extiende demasiado, puede
que los resultados pierdan toda relevancia para las políticas, dado que ya
no serían aplicables a una parte suficientemente grande de la población
de interés.
2. Tampoco es deseable que una parte grande del grupo de tratamiento

siga sin inscribirse. Una vez más, a medida que la fracción del grupo
de tratamiento que se inscribe en el programa disminuye, también lo
hace la fracción de “cumplidores” de la población. El efecto prome-
dio del tratamiento estimado con el método de variable instrumental
será válido solo para una fracción cada vez menor de la población de
interés.
3. Como ya se trató en el capítulo 5, el método de variables instrumentales
es válido solo en ciertas circunstancias; decididamente no es una solu-
ción universal.
El efecto de derrame
Los derrames (o efectos de derrame) son otro problema habitual a los que se
enfrentan las evaluaciones, sea que se aplique el método de asignación alea-
toria, el de diseño de regresión discontinua o el de diferencias en diferen-
cias. Un derrame se produce cuando una intervención afecta a un no
participante, y puede ser positivo o negativo. Hay cuatro tipos de efectos de
derrame, según Angelucci y Di Maro (2015):
• Externalidades. Se trata de efectos que van de los sujetos tratados a los

sujetos no tratados. Por ejemplo, vacunar contra la gripe a los niños de un
pueblo reduce la probabilidad de que los habitantes no vacunados del
mismo pueblo contraigan esa enfermedad. Se trata de un ejemplo de
externalidades positivas. Las externalidades también pueden ser negati-
vas. Por ejemplo, los cultivos de un agricultor pueden verse parcialmente
destruidos si su vecino aplica un herbicida en su propio terreno y parte
del herbicida cae sobre el otro lado de la línea divisoria de la propiedad.
• Interacción social. Los efectos de derrame pueden ser el producto de

interacciones sociales y económicas entre poblaciones tratadas y no
tratadas, que conducen a impactos indirectos en los no tratados. Por
ejemplo, un alumno que recibe una Tablet como parte de un programa
de mejora del aprendizaje puede compartir el dispositivo con otro
alumno que no participa en el programa.
• Efectos de equilibrio del contexto. Estos efectos se producen cuando una

intervención influye en las normas comportamentales o sociales dentro
de un determinado contexto, como una localidad tratada. Por ejemplo,
aumentar la cantidad de recursos que reciben los centros de salud trata-
dos de manera que puedan ampliar su gama de servicios puede influir en
las expectativas de la población a propósito de cuál debería ser el nivel de
los servicios ofrecidos en todos los centros de salud.
• Efectos de equilibrio general. Estos efectos se producen cuando las inter-

venciones influyen en la oferta y demanda de bienes y servicios y, por
ende, cambian el precio de mercado de esos servicios. Por ejemplo, un
programa que entrega vales a las mujeres pobres para que utilicen los
centros privados para dar a luz puede aumentar la demanda de servicios
en los centros privados, lo que incrementaría el precio del servicio para
todos. El recuadro 9.2 presenta un ejemplo de externalidades negativas
debido a efectos de equilibrio general en el contexto de un programa de
capacitación laboral.
Si el no participante que experimenta el derrame pertenece al grupo de

comparación, el efecto derrame viola el requisito básico de que el resultado
de una unidad no debería verse afectado por la asignación concreta de trata-
mientos a otras comunidades. Este supuesto de estabilidad del valor de la uni-
dad de tratamiento (o SUTVA, por sus siglas en inglés, stable unit treatment
value assumption) es necesario para asegurar que la asignación aleatoria
produzca estimaciones no sesgadas del impacto. Si el grupo de control se ve
Recuadro 9.2: Externalidades negativas debidas a efectos de
equilibrio general: asistencia para la colocación laboral y
resultados del mercado de trabajo en Francia
Los programas de asistencia para la coloca- obtenido el empleo que obtuvo el trabajador
ción laboral son populares en numerosos asesorado. Para investigar esta hipótesis,
países desarrollados. Los gobiernos contra- llevaron a cabo un experimento aleatorio
tan a una entidad externa para que ayude a que incluía 235 mercados laborales (en las
los trabajadores desempleados en su bús- ciudades) de Francia. Estos mercados de
queda de empleo. Numerosos estudios lle- trabajo fueron asignados aleatoriamente a
gan a la conclusión de que estos programas uno de cinco grupos, que variaban en cuanto
de asesoría tienen un impacto significativo y al porcentaje de buscadores de empleo que
positivo en quienes buscan empleo. eran asignados al tratamiento de asesoría
Crépon et al. (2013) investigaron si (0%, 25%, 50%, 75% y 100%). En cada
procurar asistencia laboral a trabajadores mercado laboral, los buscadores de empleo
jóvenes y con estudios que buscaban elegibles eran asignados de forma aleatoria
empleo en Francia podría tener efectos al tratamiento, siguiendo esta proporción.
negativos en otros jóvenes que buscan Al cabo de ocho meses, los autores
empleo pero que no tienen el apoyo del encontraron que los jóvenes desempleados
programa. Según su hipótesis, podría existir asignados al programa tenían probabilidades
un mecanismo de derrame, es decir, cuando significativamente mayores de encontrar un
el mercado laboral no está creciendo empleo estable que aquellos que no habían
demasiado, ayudar a una persona que busca sido asignados. No obstante, al parecer esto
empleo a encontrarlo puede producirse en se produjo parcialmente a expensas de los
desmedro de otra persona que busca trabajadores elegibles que no se beneficiaron
empleo y que, de otra manera, podría haber del programa.
Fuente: Crépon et al. (2013).
indirectamente afectado por el tratamiento recibido por el grupo de trata-

miento (por ejemplo, los alumnos del grupo de comparación que usan las
Tablets de los alumnos del grupo de tratamiento), la comparación no repre-
senta con precisión qué habría ocurrido en el grupo de tratamiento en
ausencia de tratamiento (el contrafactual).
Si el no participante que experimenta el derrame no pertenece al grupo
de comparación, el supuesto SUTVA sería válido y el grupo de comparación
seguiría proporcionando una buena estimación del contrafactual. Sin
embargo, aún habría que medir el derrame, porque representa un impacto
real del programa. En otras palabras, la comparación de los resultados de los
grupos de tratamiento y comparación generaría estimaciones no sesgadas
del impacto del tratamiento en el grupo tratado, pero esto no tendría en
cuenta el impacto del programa en otros grupos.
Un ejemplo clásico de efectos de derrame debido a externalidades se pre-
senta en Kremer y Miguel (2004), que analizaron el impacto de administrar
una medicación antiparasitaria a niños en escuelas de Kenia (recuadro 9.3).
Los parásitos intestinales pueden transmitirse de una persona a otra a través
del contacto con materia fecal contaminada. Cuando un niño recibe el remedio
antiparasitario, su “carga de parásitos” disminuye, pero también lo hará la
carga de parásitos de las personas que viven en su entorno, dado que ya no
entrarán en contacto con los parásitos del niño. Por lo tanto, en el ejemplo de
Kenia, cuando se administró el remedio a los niños de una escuela, se benefi-
ciaron no solo esos niños (beneficio directo) sino también los niños de las
escuelas vecinas (beneficios indirectos).
Como se describe en el gráfico 9.1, la campaña antiparasitaria de las escue-
las del grupo A también disminuye el número de parásitos que afectan a los
niños que no pertenecen a las escuelas del grupo A. Concretamente, puede
reducir la carga de parásitos que afectan a los niños que van a las escuelas del
grupo de comparación B, situadas cerca de las escuelas del grupo A. Sin
embargo, las escuelas de comparación que se hallan más lejos de las escuelas
del grupo A –las llamadas escuelas del grupo C– no experimentan dichos
efectos de derrame porque el remedio administrado en el grupo A no eli-
mina los parásitos que afectan a los niños que van a las escuelas del grupo C.
La evaluación y sus resultados se estudian con más detalle en el recuadro 9.3.
Recuadro 9.3: Trabajando con los efectos de derrame: remedios

antiparasitarios, externalidades y educación en Kenia
El Proyecto de Tratamiento Antiparasitario de con las recomendaciones de la Organización
las escuelas primarias de Busia, Kenia, fue Mundial de la Salud (OMS) y también recibie-
diseñado para probar diversos aspectos de ron educación antiparasitaria preventiva con
los tratamientos antiparasitarios y de la pre- charlas sobre la salud, pósteres y capacita-
vención. La iniciativa fue un programa de la ción de los profesores.
organización holandesa sin fines de lucro Debido a limitaciones administrativas y
International Child Support Africa, en coope- financieras, el programa se llevó a cabo
ración con el Ministerio de Salud de Kenia. El según el orden alfabético de las escuelas. El
proyecto abarcaba 75 escuelas con una matri- primer grupo de 25 escuelas comenzó en
culación total de más de 30.000 alumnos de 1998, el segundo grupo en 1999 y el tercer
6 a 18 años. Los niños fueron tratados con grupo en 2001. Mediante una selección alea-
remedios antiparasitarios de conformidad toria de las escuelas, Kremer y Miguel

Recuadro 9.3: Trabajando con los efectos de derrame: remedios antiparasitarios, externalidades y
educación en Kenia (continúa)
(2004) pudieron estimar el impacto del trata- disminuyeron en 12 puntos porcentuales a

miento antiparasitario en un establecimiento través de un efecto de derrame indirecto.
e identificar los derrames en otras escuelas También se observaron externalidades entre
utilizando una variación exógena de la cerca- las escuelas.
nía entre las escuelas de comparación y las Dado que el costo del tratamiento antipa-
de tratamiento. Aunque el cumplimiento del rasitario es tan bajo y que los efectos en la
diseño aleatorio fue relativamente alto (el salud y la educación son relativamente altos,
75% de los alumnos asignados al grupo de los autores llegaron a la conclusión de que el
tratamiento recibió los medicamentos anti- tratamiento antiparasitario es una manera
parasitarios y solo un pequeño porcentaje relativamente costo-efectiva para mejorar
del grupo de comparación recibió trata- las tasas de participación en las escuelas.
miento), los investigadores pudieron aprove- El estudio también muestra que las enfer-
char el no cumplimiento para determinar las medades tropicales como los parásitos pue-
externalidades de salud, o derrames, en las den desempeñar un importante rol en los
escuelas. resultados educativos, lo cual fortalece los
El efecto directo de las intervenciones argumentos de que la alta carga de infeccio-
fue una reducción de las infecciones parasi- nes existente en África puede ser uno de los
tarias moderadas a graves en 26 puntos factores que explica su bajo ingreso. Por lo
porcentuales para los alumnos que tomaban tanto, Kremer y Miguel sostienen que el estu-
la medicación. Entretanto, las infecciones dio es un sólido argumento a favor de las sub-
moderadas a graves entre los alumnos venciones públicas a los tratamientos contra
que asistían a las escuelas de trata- las infecciones, con beneficios de derrame
miento pero no tomaban la medicación similares en los países en desarrollo.
Fuente: Kremer y Miguel (2004).
Diseño de una evaluación de impacto que tiene en cuenta

los derrames
Supóngase que se diseña una evaluación de impacto para un programa

donde es probable que se produzcan derrames. ¿Cómo se enfocaría esto?
Lo primero es entender que el objetivo de la evaluación necesita ser más
amplio. Mientras que una evaluación estándar pretende estimar el impacto
(o efecto causal) de un programa en un resultado de interés para las unida-
des que reciben el tratamiento, una evaluación con efectos de derrame
tendrá que responder a dos preguntas:
1. La pregunta estándar sobre la evaluación del impacto directo. ¿Cuál es el
impacto (o efecto causal) de un programa en un resultado de interés para
Gráfico 9.1 Un ejemplo clásico de efecto de derrame: externalidades positivas
de la administración de remedios antiparasitarios a los niños de las escuelas
t
Escuela
Escuela B
Zona de externalidades
del tratamiento
antiparasitario
Escuela
las unidades que reciben el tratamiento? Se trata del impacto directo que
el programa tiene en los grupos tratados.
2. Una segunda pregunta sobre la evaluación del impacto indirecto. ¿Cuál es
el impacto (o efecto causal) de un programa en un resultado de interés en
las unidades que no reciben el tratamiento? Se trata del impacto indirecto
que el programa tiene en los grupos no tratados.
Para estimar el impacto directo en los grupos tratados, habrá que elegir el
grupo de comparación de tal manera que no se vea afectado por los derra-
mes. Por ejemplo, puede ponerse como condición que los pueblos, clínicas u
hogares de tratamiento y comparación estén situados lo suficientemente
lejos unos de otros de manera que los derrames sean poco probables.
Para estimar el impacto indirecto en los grupos no tratados, debería iden-
tificarse para cada grupo no tratado un grupo de comparación adicional que
pueda verse afectado por los derrames. Por ejemplo, los trabajadores comu-
nitarios de la salud pueden realizar visitas domiciliarias para proporcionar
información a los padres acerca de los beneficios de una dieta variada mejo-
rada para los niños. Supóngase que los trabajadores comunitarios de la salud
solo visitan algunos hogares de un pueblo determinado. Uno puede estar
interesado en los efectos de derrame sobre los niños de los hogares no visita-
dos, en cuyo caso necesitaría hallar un grupo de comparación para estos
niños. Al mismo tiempo, puede ser que la intervención también afecte la
variedad de la dieta de los adultos. Si tal efecto indirecto es de interés para la
evaluación, se necesitaría también un grupo de comparación para los adul-
tos. A medida que aumente el número de canales potenciales de derrame, el
diseño puede complicarse con relativa rapidez.
Las evaluaciones con efectos de derrame plantean ciertos problemas
específicos. Por ejemplo, cuando los efectos de derrame son probables, es
importante entender el mecanismo de derrame, ya sea biológico, social,
ambiental o de otro tipo. Si no se sabe cuál es el mecanismo de derrame, no
será posible elegir con precisión los grupos de comparación que son y no son
afectados por los derrames. En segundo lugar, una evaluación con efectos de
derrame requiere una recopilación de datos más amplia que una evaluación
en la cual esa preocupación no existe: hay un grupo de comparación adicio-
nal (en el ejemplo anterior, los pueblos vecinos). Puede que también tengan
que recopilarse datos sobre las otras unidades (en el ejemplo anterior, los
adultos de los hogares objetivo para visitas relacionadas con la nutrición de
los niños). En el recuadro 9.4 se analiza cómo los investigadores manejaron
los efectos de derrame en una evaluación de un programa de transferencias
condicionadas en México.
Recuadro 9.4: Evaluación de los efectos de derrame:

transferencias condicionadas y derrames en México
Angelucci y De Giorgi (2009) analizaron los elegibles a través de préstamos o regalos.
derrames en el programa Progresa, en El programa Progresa se implantó por
México, que proporcionaba transferencias fases a lo largo de dos años, y se seleccionaron
condicionadas a los hogares (véanse los aleatoriamente 320 pueblos para recibir las
recuadros 1.1 y 4.2). Los investigadores transferencias de efectivo en 1998, y 186 en
buscaban analizar si había riesgo compartido 1999. Por lo tanto, entre 1998 y 1999 había 320
en los pueblos. Si los hogares compartían pueblos de tratamiento y 186 pueblos de
riesgo, los hogares elegibles podían comparación. En los pueblos de tratamiento,
transferir parte del efectivo a hogares no la elegibilidad de un hogar para las

Recuadro 9.4: Evaluación de los efectos de derrame: transferencias condicionadas y derrames en
México (continúa)
transferencias de Progresa estaba determinada tratamiento. Esto equivalía a alrededor de la

por el nivel de pobreza y se contaba con los mitad del incremento promedio del consumo
datos del censo de ambos grupos. Esto creó de alimentos de los hogares elegibles. Los
cuatro subgrupos dentro de la muestra: resultados también apoyaron la hipótesis de
poblaciones elegibles y no elegibles en los riesgo compartido en los pueblos. Los
pueblos de tratamiento y comparación. hogares no elegibles en los pueblos de
Suponiendo que el programa no afectaba tratamiento recibieron más préstamos y
indirectamente a los pueblos de comparación, transferencias de los amigos y la familia que
los hogares no elegibles en dichos pueblos los hogares no elegibles en los pueblos de
constituían un contrafactual válido para los comparación. Esto implica que el efecto de
hogares no elegibles en los pueblos de derrame funcionó a través de los mercados
tratamiento, con el objetivo de estimar el de seguro y de crédito locales.
efecto de derrame en los hogares no elegibles A partir de estos resultados, Angelucci y
dentro de los pueblos de comparación. De Giorgi llegaron a la conclusión de que
Los autores encontraron evidencia de las anteriores evaluaciones de Progresa
derrames positivos en el consumo. El subestimaban el impacto del programa en
consumo de alimentos de los adultos un 12% porque no tenían en cuenta los
aumentó cerca de un 10% al mes en los efectos indirectos en los hogares no
hogares no elegibles de los pueblos de elegibles en los pueblos de tratamiento.
Fuente: Angelucci y De Giorgi (2009).
El desgaste
El sesgo del desgaste es otro problema habitual que afecta a las evaluaciones,
ya sea con el método de asignación aleatoria, de regresión discontinua o de
diferencias en diferencias. El desgaste se produce cuando partes de la mues-
tra “desaparecen” a lo largo del tiempo y los investigadores no pueden
encontrar a todos los miembros iniciales de los grupos de tratamiento y
comparación en las encuestas o en los datos de seguimiento. Por ejemplo, de
los 2.500 hogares encuestados en la línea de base, los investigadores pueden
encontrar solo 2.300 en una encuesta de seguimiento dos años después. Si
intentan volver a realizar la encuesta al mismo grupo, por ejemplo, 10 años
después, puede que encuentren incluso menos hogares originales.
El desgaste se puede producir por diferentes motivos. Por ejemplo, puede
que los miembros de los hogares o incluso familias enteras se muden a otro
pueblo, ciudad, región, o incluso país. En un ejemplo reciente, una encuesta de
seguimiento realizada 22 años después en Jamaica indicó que el 18% de la
muestra había emigrado (véase el recuadro 9.5). En otros casos, los encues-
tados ya no estaban dispuestos a responder a una segunda encuesta. También
ocurrió que los conflictos y la falta de seguridad en la zona impidieron que
el equipo de investigación llevara a cabo una encuesta en algunas localida-
des incluidas en la línea de base.
Recuadro 9.5: El desgaste en estudios con seguimiento a largo

plazo: desarrollo infantil temprano y migración en Jamaica
El desgaste puede ser especialmente Sin embargo, al considerarse el subgrupo de
problemático cuando han pasado muchos niños que se habían convertido en
años entre las encuestas de línea de base y trabajadores migrantes, se observaron
seguimiento. En 1986 un equipo de la señales de desgaste selectivo. De los 23
University of West Indies inició un estudio trabajadores migrantes, nueve habían
para medir los resultados a largo plazo de abandonado la muestra y una parte
una intervención en la primera infancia en significativamente mayor de aquellos
Jamaica. En 2008, cuando los participantes pertenecía al grupo de tratamiento. Esto
originales tenían 22 años, se llevó a cabo un implicaba que el tratamiento estaba asociado
seguimiento. Fue difícil encontrar la pista con la migración. Dado que los trabajadores
de todos los participantes del estudio migrantes suelen ganar más que aquellos
original. que permanecen en Jamaica, esto hizo difícil
La intervención consistió en un programa la formulación de estimaciones de impacto.
de dos años que ofreció estimulación Para tratar los sesgos potenciales del
psicosocial y suplementos nutricionales a desgaste entre los trabajadores migrantes, los
niños pequeños con problemas de investigadores utilizaron técnicas
crecimiento en Kingston, Jamaica. Un total econométricas. Predijeron los ingresos de los
de 129 niños fueron asignados aleatoriamente trabajadores migrantes que habían
a una de tres ramas de tratamiento o a un abandonado la muestra mediante una
grupo de comparación. Los investigadores regresión de mínimos cuadrados ordinarios
también encuestaron a 84 niños sin utilizando como factores determinantes la
problemas de crecimiento para un segundo condición de tratamiento, el sexo y
grupo de comparación. En el seguimiento, la migración. Con estas predicciones en la
los investigadores pudieron realizar una estimación de impacto, llegaron a la conclusión
segunda encuesta con casi el 80% de los de que los resultados del programa eran
participantes. No se recogió evidencia de impresionantes. La intervención en la primera
desgaste selectivo en el conjunto de la infancia había aumentado los ingresos del
muestra, lo que significa que no había grupo de tratamiento en un 25%. Este efecto
diferencias significativas en las características era lo bastante grande para que el grupo de
de línea de base de aquellos que podían ser tratamiento con problemas de crecimiento
encuestados a los 22 años, comparados con alcanzara al grupo de comparación sin
aquellos que no podían ser encuestados. problemas de crecimiento 20 años más tarde.
Fuentes: Gertler et al. (2014); Grantham-McGregor et al. (1991).

El desgaste puede ser problemático por dos motivos. En primer lugar, la
muestra de seguimiento quizá ya no represente adecuadamente a la pobla-
ción de interés. Recuérdese que cuando se elige la muestra, en el momento de
la asignación aleatoria, se hace de manera que represente de forma apropiada
a la población de interés. En otras palabras, se escoge una muestra que tiene
validez externa para la población de interés. Si la encuesta o la recopilación
de datos de seguimiento se ve limitada por un desgaste considerable, debería
ser preocupante que la muestra de seguimiento represente solo a un sub-
conjunto específico de la población de interés. Por ejemplo, si las personas
de mayor nivel educativo de la muestra original también son las que emi-
gran, la encuesta de seguimiento ignoraría a aquellas personas con estudios
y ya no representaría adecuadamente a la población de interés, que incluía a
esas personas.
En segundo lugar, puede que la muestra de seguimiento ya no esté equili-
brada entre el grupo de tratamiento y de comparación. Supóngase que se
intenta evaluar un programa que quiere mejorar la educación de las niñas y
que es más probable que las niñas con estudios se muden a la ciudad a bus-
car un empleo. Entonces, la encuesta de seguimiento podría mostrar un alto
desgaste desproporcionado en el grupo de tratamiento, en relación con el
grupo de comparación. Esto podría afectar la validez interna del programa,
es decir, al contrastar las unidades de tratamiento y comparación que se
encuentran en el seguimiento, ya no se podrá dar una estimación precisa del
impacto del programa.
Si durante las encuestas de seguimiento se halla desgaste, los siguientes
dos pasos pueden ayudar a evaluar el alcance del problema. Primero, verifí-
quese si las características de línea de base de las unidades que abandonaron
la muestra son estadísticamente iguales a las características de línea de base
de las unidades que fueron encuestadas con éxito la segunda vez. Siempre
que las características de línea de base de ambos grupos no sean estadística-
mente diferentes, la nueva muestra debería seguir representando a la pobla-
ción de interés.
Segundo, verifíquese si la tasa de desgaste del grupo de tratamiento es
similar a la tasa de desgaste del grupo de comparación. Si ambas son signifi-
cativamente diferentes, surge la preocupación de que la muestra ya no sea
válida, y quizá deban utilizarse diversas técnicas estadísticas para intentar
corregir esto. Un método habitual es la ponderación por probabilidad inversa,
un método que repondera estadísticamente los datos (en este caso, los datos
de seguimiento) para corregir el hecho de que una parte de los encuestados
originales está ausente. El método formula una reponderación de la muestra
de seguimiento de modo que tenga un aspecto similar a la muestra de línea
de base.1

Programación en el tiempo y persistencia de
los efectos
Loscanalesdetransmisiónentreinsumos,actividades,productosyresultados
pueden tener lugar de inmediato, pronto o después de un período de tiempo,
y suelen estar estrechamente relacionados con los cambios en el comporta-
miento humano. En el capítulo 2 se ponía de relieve la importancia de pensar
en estos canales y planificar correspondientemente antes de que comenzara
la intervención, así como de desarrollar una cadena causal clara para el pro-
grama que se esté evaluando. En aras de la sencillez, nos hemos abstraído de
los problemas relacionados con la programación en el tiempo. Sin embargo, es
fundamental considerar estos aspectos cuando se diseña una evaluación.
En primer lugar, los programas no necesariamente se vuelven plenamente
efectivos justo después de su inicio (King y Behrman, 2009). Los administra-
dores de un programa necesitan tiempo para que éste comience a funcionar,
y puede ser que los beneficiarios no vean los frutos de inmediato porque los
cambios de conducta requieren tiempo, y puede ser que las instituciones tam-
poco modifiquen su comportamiento con rapidez. Por otro lado, una vez que
las instituciones y los beneficiarios cambian ciertas conductas, puede ocurrir
que estas se mantengan aun cuando se suspenda el programa. Por ejemplo,
un programa que incentiva a los hogares a separar y reciclar la basura y aho-
rrar energía puede seguir siendo efectivo después de que se eliminen los
incentivos, si consigue cambiar las normas de los hogares en el manejo de la
basura y la energía. Cuando se diseña una evaluación, hay que tener mucho
cuidado (y ser realistas) para definir cuánto podría tardar el programa en
alcanzar su plena efectividad. Puede que sea necesario llevar a cabo diversas
encuestas de seguimiento para medir el impacto del programa a lo largo del
tiempo, o incluso después de que el programa se interrumpa. El recuadro 9.6
presenta el caso de una evaluación donde algunos efectos solo se hicieron
visibles después de suspendida la intervención inicial.
Recuadro 9.6: Evaluación de los efectos a largo plazo: subsidios y

adopción de redes antimosquitos tratadas con insecticidas en Kenia
Dupas (2014) diseñó una evaluación de impacto inglés, insecticide treated bed nets) en Busia,
para medir los impactos tanto de corto como Kenia. Utilizando un experimento de dos fases
de largo plazo de diferentes esquemas de sub- donde intervenía la fijación de precios, Dupas
sidios en la demanda de redes antimosquitos asignó aleatoriamente hogares a diversos nive-
tratadas con insecticidas (ITN, por sus siglas en les de subsidios para un nuevo tipo de ITN.

Recuadro 9.6: Evaluación de los efectos a largo plazo: subsidios y adopción de redes antimosquitos
tratadas con insecticidas en Kenia (continúa)
Un año después, todos los hogares en un sub- ITN se ofreció gratis, la tasa de adopción
conjunto de pueblos tuvieron la oportunidad de aumentó al 98%. A largo plazo, las tasas de
comprar la misma red. Esto permitió a los adopción más altas se tradujeron en una
investigadores medir la disponibilidad de los mayor disponibilidad a pagar, dado que los
hogares a pagar por las ITN y cómo esta dispo- hogares vieron los beneficios de tener una
nibilidad cambiaba en función del subsidio reci- ITN. Aquellos que recibieron uno de los
bido en la primera fase del programa. subsidios más grandes en la primera fase
En general, los resultados indicaron tenían tres veces más probabilidades de
que un subsidio único tenía impactos comprar otra ITN en la segunda fase a más
significativamente positivos en la adopción del doble del precio.
de ITN y la disponibilidad para pagar a largo Los resultados de este estudio implican
plazo. En la primera fase del experimento, que se produce un efecto de aprendizaje en
Dupas observó que los hogares que recibían las intervenciones en ITN. Esto señala que
un subsidio que reducía el precio de la ITN es importante considerar los impactos de
de US$3,80 a US$0,75 tenían un 60% más las intervenciones a largo plazo, así como
de probabilidades de comprarla. Cuando la dar a conocer la persistencia de los efectos.
Fuente: Dupas (2014).
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos a más
Nota
1. Un método estadístico más avanzado sería estimar “límites nítidos” en los
efectos del tratamiento (véase Lee, 2009).
Angelucci, M. y G. De Giorgi. 2009. “Indirect Effects of an Aid Program: How Do
Cash Transfers Affect Ineligibles’ Consumption.” American Economic Review
99 (1): 486–508.
Angelucci, M. y V. Di Maro. 2015. “Programme Evaluation and Spillover Effects.”
Journal of Development Effectiveness (doi: 10.1080/19439342.2015.1033441).

Crépon, B., E. Duflo, M. Gurgand, R. Rathelot y P. Zamora. 2013. “Do Labor Market
Policies Have Displacement Effects? Evidence from a Clustered Randomized
Experiment.” Quarterly Journal of Economics 128 (2): 531–80.
Dupas, P. 2014. “Short-Run Subsidies and Long-Run Adoption of New Health
Products: Evidence from a Field Experiment.” Econometrica 82 (1): 197–228.
Gertler, P., J. Heckman, R. Pinto, A. Zanolini, C. Vermeersch, S. Walker, S. M. Chang
y S. Grantham-McGregor. 2014. “Labor Market Returns to an Early Childhood
Stimulation Intervention in Jamaica.” Science 344 (6187): 998–1001.
Grantham-McGregor, S., C. Powell, S. Walker y J. Himes. 1991. “Nutritional
Supplementation, Psychosocial Stimulation and Development of Stunted
Children: The Jamaican Study.” Lancet 338: 1–5.
King, E. M. y J. R. Behrman. 2009. “Timing and Duration of Exposure in
Evaluations of Social Programs.” World Bank Research Observer 24 (1): 55–82.
Kremer, M. y E. Miguel. 2004. “Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities.” Econometrica 72 (1): 159–217.
Landsberger, H. A. 1958. Hawthorne Revisited. Ithaca, NY: Cornell University Press.
Lee, D. 2009. “Training, Wages, and Sample Selection: Estimating Sharp Bounds on
Treatment Effects.” Review of Economic Studies 76 (3):1071–1102.
Levitt, S. D. y J. A. List. 2009. “Was There Really a Hawthorne Effect at the Hawthorne
Plant? An Analysis of the Original Illumination Experiments.” Documento de
trabajo NBER 15016. Cambridge, MA: National Bureau of Economic Research.
Saretsky, G. 1972. “The OEO P.C. Experiment and the John Henry Effect.” Phi Delta
Kappan 53: 579–81.

CAPÍTULO 10
Evaluación de programas
multifacéticos
Evaluación de programas que combinan diversas

opciones de tratamiento
Hasta ahora, se han analizado programas con un solo tipo de tratamiento. Sin
embargo, muchas cuestiones relevantes relacionadas con las políticas se plan-
tean en programas multifacéticos, es decir, que combinan varias opciones de
tratamiento.1 Los responsables de formular políticas pueden estar interesa-
dos en saber no solo si el programa funciona o no, sino también si funciona
mejor o tiene un costo menor que otro programa. Por ejemplo, si se quiere
aumentar la asistencia a la escuela, ¿es más eficaz orientar las intervenciones
a la demanda (como las transferencias condicionadas a las familias) o a la
oferta (como mayores incentivos para los profesores)? Y si se introducen las
dos intervenciones conjuntamente, ¿funcionan mejor que cada una por su
cuenta?, ¿son complementarias? Si la costo-efectividad es una prioridad,
puede preguntarse perfectamente cuál es el nivel óptimo de los servicios que
debe prestar el programa. Por ejemplo, ¿cuál es la duración óptima de un pro-
grama de capacitación para el empleo? ¿Un programa de seis meses contri-
buye más que un programa de tres meses a que los participantes encuentren
empleo? De ser así, ¿la diferencia es lo suficientemente grande para justificar
los recursos adicionales necesarios para un programa de seis meses? Por
último, a los responsables de políticas les puede interesar cómo alterar un
195
programa existente para hacerlo más efectivo, y quizá quieran probar diversos
mecanismos con el fin de encontrar cuál(es) funciona(n) mejor.
Además de estimar el impacto de una intervención sobre un resultado de
interés, las evaluaciones de impacto pueden ayudar a responder preguntas
más generales, como las siguientes:
• ¿Cuál es el impacto de un tratamiento en comparación con otro? Por
ejemplo, ¿cuál es el impacto en el desarrollo cognitivo de los niños de un
programa que ofrece capacitación a los padres, en comparación con una
intervención sobre nutrición?
• ¿El impacto conjunto de un primer y un segundo tratamiento es mayor que
la suma de los dos impactos? Por ejemplo, ¿el impacto de la intervención de
capacitación de padres y la intervención sobre nutrición es mayor, menor o
igual que la suma de los efectos de cada una de las intervenciones?
• ¿Cuál es el impacto de un tratamiento de alta intensidad en comparación
con un tratamiento de menor intensidad? Por ejemplo, ¿cuál es el efecto
en el desarrollo cognitivo de niños con retraso en el crecimiento si un
trabajador social los visita en su casa cada dos semanas, en lugar de visi-
tarlos una vez al mes?
Este capítulo ofrece ejemplos de diseños de evaluaciones de impacto para dos
tipos de programas multifacéticos: los que tienen múltiples niveles del mismo
tratamiento y los que tienen múltiples tratamientos. Primero se analiza cómo
diseñar una evaluación de impacto de un programa con varios niveles de tra-
tamiento. Después, se examinan los diferentes tipos de impactos de un pro-
grama con múltiples tratamientos. Para este análisis se supone que se usará un
método de asignación aleatoria, aunque puede generalizarse a otros métodos.
Evaluación de programas con diferentes niveles

de tratamiento
Diseñar una evaluación de impacto para un programa con niveles variables de

tratamiento es relativamente fácil. Imagínese que se intenta evaluar el impacto
de un programa con dos niveles de tratamiento: alto (por ejemplo, visitas cada
dos semanas) y bajo (visitas mensuales). Se quiere evaluar el impacto de
ambas opciones, y saber cuánto afectan a los resultados esas visitas adiciona-
les. Para ello, se puede organizar un sorteo de modo de decidir quién recibe el
nivel alto de tratamiento, quién recibe el nivel bajo de tratamiento y a quién se
asigna al grupo de comparación (el gráfico 10.1 ilustra este proceso).
Como es habitual en la asignación aleatoria, el primer paso consiste en
definir la población de unidades elegibles para el programa. El segundo, en
seleccionar una muestra aleatoria de unidades que se incluirá en la evaluación,
Gráfico 10.1 Pasos para la asignación aleatoria de dos niveles de tratamiento
1. Definir unidades 2. Seleccionar la muestra 3. Asignación aleatoria a los

elegibles de evaluación niveles alto y bajo del tratamiento
la denominada muestra de evaluación. Una vez que se cuente con la muestra de

evaluación, en el tercer paso se asignarán aleatoriamente unidades al grupo
que recibe un nivel alto de tratamiento, al grupo que recibe el nivel bajo de tra-
tamiento o al grupo de comparación. Como resultado de la asignación aleatoria
a múltiples niveles de tratamiento, se habrán creado tres grupos distintos:
• El grupo A es el grupo de comparación.
• El grupo B recibe el nivel bajo de tratamiento.
• El grupo C recibe el nivel alto de tratamiento.
Cuando se implementa correctamente, la asignación aleatoria garantiza que
los tres grupos sean similares. Por lo tanto, se puede estimar el impacto del
nivel alto de tratamiento mediante la comparación del resultado promedio
del grupo C con el resultado promedio del grupo A. También se puede esti-
mar el nivel bajo de tratamiento comparando el resultado promedio del
grupo B con el del grupo A. Finalmente, se puede evaluar si el nivel alto de
tratamiento tiene un mayor impacto que el nivel bajo de tratamiento com-
parando los resultados promedio de los grupos B y C.
La estimación del impacto de un programa con más de dos niveles de Concepto clave
tratamiento seguirá la misma lógica. Si existen tres niveles de tratamiento, el Al evaluar programas
proceso de asignación aleatoria creará tres grupos de tratamiento diferen- con n diferentes
tes, además de un grupo de comparación. En general, con n niveles de trata- niveles de tratamiento,
miento, habrá n grupos de tratamiento, más un grupo de comparación. En debe haber n grupos
los recuadros 10.1 y 10.2 se presentan ejemplos de evaluaciones de impacto de tratamiento más un
que prueban modalidades de diferentes intensidades u opciones de trata-
mientos múltiples.
Evaluación de programas multifacéticos 197

Recuadro 10.1: Prueba de la intensidad de un programa para
mejorar la adhesión a un tratamiento antirretroviral
Pop-Eleches et al. (2011) utilizaron un diseño los cuatro grupos de intervención, mientras
multinivel transversal para evaluar el impacto que el intervalo de valor de 2/3 a 1 correspon-
del uso de mensajes SMS como recordato- día al grupo de control.
rios para la adhesión de los pacientes con Los investigadores concluyeron que los
VIH/SIDA a la terapia antirretroviral en una mensajes semanales aumentaban el porcen-
clínica rural de Kenia. El estudio varió la inten- taje de pacientes con un 90% de adhesión a
sidad del tratamiento en dos dimensiones: la la terapia antirretroviral en alrededor de un
frecuencia con que se enviaban los mensa- 13%-16%, en comparación con la ausencia de
jes a los pacientes (a diario o semanalmente) mensajes. Estos mensajes semanales tam-
y la extensión de los mensajes (breves o lar- bién eran efectivos para reducir la frecuencia
gos). Los mensajes breves tenían solo un de las interrupciones del tratamiento, que
recordatorio (“Este es un recordatorio para –según se ha demostrado– constituyen una
usted”), mientras que los mensajes largos causa importante del fracaso por resistencia
incluían un recordatorio y una frase de aliento al tratamiento en contextos de recursos limi-
(“Este es un recordatorio. Sea fuerte y tados. Contrariamente a las expectativas, aña-
valiente, nos preocupamos por usted”). Se dir palabras de aliento en los mensajes más
asignó un total de 531 pacientes a uno de los largos no era más efectivo que un mensaje
cuatro grupos de tratamiento o al grupo de breve o ningún mensaje.
comparación. Los grupos de tratamiento Los investigadores también descubrieron
consistían en: mensajes semanales breves, que si bien los mensajes semanales mejora-
mensajes semanales largos, mensajes dia- ban la adhesión, los mensajes diarios no lo
rios breves o mensajes diarios largos. hacían, pero no fueron capaces de distinguir
Una tercera parte de la muestra se asignó al por qué los primeros eran los más efectivos.
grupo de control y las otras dos terceras partes Es posible que esta conclusión se explique
se asignaron por igual a cada uno de los cuatro gracias a la habituación, o la menor respuesta
grupos de intervención. Se generó una secuen- ante un estímulo repetido con frecuencia, o
cia de números aleatorios entre 0 y 1. Cuatro puede que los pacientes sencillamente opina-
intervalos iguales entre 0 y 2/3 correspondían a ran que los mensajes diarios eran intrusivos.
Cuadro B10.1.1 Resumen del diseño del programa
Frecuencia del
Grupo Tipo de mensaje mensaje Nº de pacientes
1 Solo recordatorio Semanal 73
2 Recordatorio + aliento Semanal 74
3 Solo recordatorio Diario 70
4 Recordatorio + aliento Diario 72
5 Ninguno (grupo de comparación) Ninguna 139
Fuente: Pop-Eleches et al. (2011).

Recuadro 10.2: Pruebas de alternativas de los programas para
monitorear la corrupción en Indonesia
En Indonesia, Olken (2007) utilizó un diseño anónima. Para medir los niveles de corrup-
transversal para probar diferentes métodos ción, un equipo independiente de ingenieros
con el fin de controlar la corrupción, desde y topógrafos tomó muestras básicas de las
una estrategia de vigilancia de arriba hacia nuevas carreteras, estimó el costo de los
abajo hasta una supervisión comunitaria más materiales usados y comparó sus cálculos
de base. El autor recurrió a una metodo- con los presupuestos presentados.
logía de asignación aleatoria en más de 600 Olken observó que el incremento de las
comunidades que estaban construyendo auditorías públicas (desde una probabilidad
carreteras como parte de un proyecto nacio- de resultar auditado de alrededor del 4%
nal de mejora de infraestructura. hasta una probabilidad del 100%) redujo la
Uno de los tratamientos múltiples con- pérdida de gastos en unos 8 puntos por-
sistió en seleccionar de manera aleatoria centuales (a partir de un 24%). El aumento
algunas comunidades para informarles que de la participación de la comunidad en la
su proyecto de construcción sería auditado supervisión tuvo un impacto sobre la pér-
por un funcionario público. Luego, para dida de mano de obra pero no sobre la pér-
poner a prueba la participación comunitaria dida de gastos. Los formularios para
en la supervisión, los investigadores imple- comentarios solo resultaron eficaces
mentaron dos intervenciones. Distribuyeron cuando se distribuyeron entre los niños en
invitaciones a reuniones comunitarias para la escuela para que se los entregaran a sus
la rendición de cuentas y repartieron formu- familias, y no cuando fueron entregados a
larios para presentar comentarios de manera los líderes comunitarios.
Fuente: Olken (2007).
Evaluación de múltiples intervenciones
Además de comparar varios niveles de tratamiento, también se pueden com-

parar opciones de tratamiento totalmente diferentes. De hecho, los respon-
sables de las políticas prefieren comparar los méritos relativos de diferentes
intervenciones, más que conocer solo el impacto de una intervención.
Imagínese que se propone evaluar el impacto en la matriculación escolar
de un programa con dos intervenciones, transferencias condicionadas a las
familias de los estudiantes y transporte gratuito en autobús a la escuela.
Primero, es necesario conocer el impacto de cada intervención por separado.
Este caso es prácticamente idéntico a aquel en que se prueban diferentes
niveles de tratamiento de una intervención, a saber, en lugar de asignar alea-
toriamente las unidades a niveles altos y bajos de tratamiento y al grupo de
comparación, se les puede asignar de forma aleatoria a un grupo de
transferencias condicionadas, a un grupo de transporte gratuito en autobús
y al grupo de comparación. En general, con n niveles de tratamiento, habrá
n grupos de tratamiento, más un grupo de comparación.
Aparte de querer conocer el impacto de cada intervención por separado,
puede que también se desee conocer si la combinación de los dos es mejor
que la simple suma de los efectos individuales. Desde el punto de vista de los
participantes, el programa está disponible en tres formas diferentes: solo
transferencias condicionadas, únicamente transporte gratuito en autobús o
una combinación de transferencias y transporte gratuito.
La asignación aleatoria para un programa con dos intervenciones es muy
similar al proceso de un programa con una sola intervención. La principal
diferencia es la necesidad de organizar varios sorteos independientes, en
lugar de uno. Esto produce un diseño cruzado, a veces llamado diseño trans-
versal. En el gráfico 10.2 se ilustra este proceso. Como en el caso anterior, en
el primer paso se define la población de unidades elegibles para el programa.
El segundo paso consiste en seleccionar una muestra aleatoria de unidades
elegibles para formar la muestra de evaluación. Una vez obtenida la muestra
de evaluación, en el tercer paso se asignan aleatoriamente sus unidades a un
grupo de tratamiento y a un grupo de control. En el cuarto paso, se lleva a
cabo un segundo sorteo para asignar de forma aleatoria una subserie del
grupo de tratamiento a fin de que reciba la segunda intervención. Por último,
en el quinto paso se realiza otro sorteo para asignar una subserie del grupo
de comparación inicial a fin de que reciba la segunda intervención, mientras
que la otra subserie se mantiene como un conjunto puro de comparación.2
Gráfico 10.2 Pasos para la asignación aleatoria de dos intervenciones
1. Definir unidades 2. Seleccionar la 3. Asignación 4. y 5. Asignación

elegibles muestra de aleatoria al aleatoria al segundo
evaluación primer tratamiento
tratamiento

Como consecuencia de la asignación aleatoria a los dos tratamientos, se
habrán creado cuatro grupos, como se muestra en el gráfico 10.3.
• El grupo A recibe ambas intervenciones (transferencias condicionadas y
transporte en autobús).
• El grupo B recibe la primera intervención pero no la segunda (solo trans-
ferencias condicionadas).
• El grupo C no recibe la primera intervención pero sí la segunda (solo el
transporte en autobús).
• El grupo D no recibe ni la primera ni la segunda intervención, y consti-
tuye el grupo de comparación puro.
Cuando se implementa correctamente, la asignación aleatoria garantiza que
los cuatro grupos sean similares. Por lo tanto, se puede estimar el impacto de
la primera intervención comparando el resultado del grupo B (por ejemplo,
la tasa de asistencia escolar) con el resultado del grupo puro de compara-
ción, el grupo D. También se puede estimar el impacto de la segunda inter-
vención comparando el resultado del grupo C con el resultado del grupo de
comparación puro, el grupo D. Además, este diseño también permite com-
parar el impacto progresivo de recibir la segunda intervención cuando una
unidad ya ha recibido la primera. La comparación de los resultados del
Gráfico 10.3 Diseño híbrido para un programa con dos intervenciones
Intervención 1
Tratamiento Comparación
Grupo A Grupo C
Tratamiento
Intervención 2
Grupo B Grupo D
Comparación

grupo A y del grupo B determinará el impacto de la segunda intervención
para aquellas unidades que ya han recibido la primera intervención. La
comparación de los resultados de los grupos A y C determinará el impacto
de la primera intervención en las unidades que ya han recibido la segunda
intervención.
En la descripción anterior se ha usado el ejemplo de la asignación aleato-
ria para explicar la manera de diseñar una evaluación de impacto para un
programa con dos intervenciones diferentes. Cuando un programa cuenta
con más de dos intervenciones, se puede aumentar el número de sorteos y
continuar subdividiendo la evaluación para formar grupos que reciben las
diversas combinaciones de intervenciones. También se pueden implemen-
tar múltiples tratamientos y múltiples niveles de tratamiento. Aunque se
amplíe el número de grupos, la teoría fundamental del diseño sigue siendo
la misma que la descripta anteriormente.
Sin embargo, la evaluación de más de una o dos intervenciones generará
dificultades prácticas tanto en la evaluación como en el funcionamiento del
programa, ya que la complejidad del diseño incrementará exponencial-
mente el número de ramas de tratamiento. Para evaluar el impacto de una
sola intervención se necesitan únicamente dos grupos, uno de tratamiento y
otro de comparación. Para evaluar el impacto de dos intervenciones se nece-
sitan cuatro grupos, tres de tratamiento y uno de comparación. Si se quisiera
evaluar el impacto de tres intervenciones, incluidas todas las combinaciones
posibles entre ellas, se necesitaría 2 × 2 × 2 = 8 grupos en la evaluación. En
general, en el caso de una evaluación que vaya a incluir todas las combina-
ciones posibles entre n intervenciones, se necesitarán 2n grupos. Además,
para poder distinguir los resultados de los grupos, cada grupo requiere un
número suficiente de unidades de observación de modo de garantizar una
potencia estadística suficiente. En la práctica, la detección de diferencias
Concepto clave entre las ramas de la intervención puede exigir muestras más grandes que la
Para que una
comparación entre un grupo de tratamiento y un grupo de comparación
evaluación estime el
puro. Si las dos ramas de tratamiento logran provocar cambios en los resul-
impacto de todas las
posibles combinacio- tados deseados, se requerirán muestras más grandes para detectar las posi-
nes entre n interven- bles diferencias menores entre los dos grupos.3
ciones diferentes, se Por último, los diseños cruzados también se pueden utilizar en diseños
requerirá un total de 2n de evaluación que combinan diversos métodos de evaluación. Las reglas
grupos de tratamiento
operativas que rigen la asignación de cada tratamiento determinarán qué
y de comparación.
combinación de métodos debe usarse. Por ejemplo, puede ocurrir que el
primer tratamiento se asigne sobre la base de una puntuación de elegibili-
dad, pero el segundo se asignará de manera aleatoria. En este caso, el
diseño puede recurrir a un diseño de regresión discontinua para la pri-
mera intervención y a un método de asignación aleatoria para la segunda
intervención.
Otros recursos
• Para material de apoyo relacionado con este libro y para hipervínculos de más
• Para más información sobre el diseño de evaluaciones de impacto con múlti-
ples opciones de tratamiento, véase A. Banerjee y E. Duflo (2009), “The Expe-
rimental Approach to Development Economics.” Annual Review of Economics
1: 151–78.
Notas
1. Véase Banerjee y Duflo (2009), para un análisis más detallado.
2. Nótese que, en la práctica, es posible combinar los tres sorteos separados en uno
solo y alcanzar el mismo resultado.
3. Probar el impacto de múltiples intervenciones también tiene una implicación
más sutil: a medida que se incrementa el número de intervenciones o niveles de
tratamiento que se contrastan unos con otros, se aumenta la probabilidad de
encontrar un impacto en al menos una de las pruebas, aunque no haya impacto.
En otras palabras, hay más probabilidades de encontrar un falso positivo. Para
evitar esto, se deben ajustar las pruebas estadísticas de modo de dar cuenta de
las pruebas de hipótesis múltiples. Los falsos positivos también se denominan
errores de tipo II. Véase el capítulo 15 para más información sobre los errores de
tipo II y referencias sobre las pruebas de hipótesis múltiples.
Banerjee, A. y E. Duflo. 2009. “The Experimental Approach to Development
Economics.” Annual Review of Economics 1: 151–78.
Olken, B. 2007. “Monitoring Corruption: Evidence from a Field Experiment in
Indonesia.” Journal of Political Economy 115 (2): 200–249.
Pop-Eleches, C., H. Thirumurthy, J. Habyarimana, J. Zivin, M. Goldstein, D. de
Walque, L. MacKeen, J. Haberer, S. Kimaiyo, J. Sidle, D. Ngare y D. Bangsberg.
2011. “Mobile Phone Technologies Improve Adherence to Antiretroviral
Treatment in a Resource-Limited Setting: A Randomized Controlled Trial of
Text Message Reminders.” AIDS 25 (6): 825–34.

Tercera parte
CÓMO IMPLEMENTAR
UNA EVALUACIÓN DE
IMPACTO
La tercera parte de este libro se centra en cómo implementar una evaluación

de impacto: cómo seleccionar un método de evaluación de impacto compati-
ble con las reglas operativas de un programa; cómo manejar una evaluación
de impacto, lo cual incluye asegurar una sólida asociación entre los equipos
de investigación y los responsables de las políticas, y gestionar el tiempo y el
presupuesto de una evaluación; cómo garantizar que una evaluación sea a la
vez ética y creíble, siguiendo los principios para trabajar con sujetos humanos
y ciencia abierta; y cómo utilizar la evaluación de impacto para fundamentar las
políticas públicas.
En el capítulo 11 se describe cómo usar las reglas operativas del programa como
base para elegir un método de evaluación de impacto, a saber: los recursos
de que dispone un programa, el criterio para seleccionar a los beneficiarios y
el calendario de la implementación. Se establece un marco de trabajo sencillo
para determinar cuál de las metodologías de evaluación de impacto presenta-
das en la segunda parte es la más adecuada para un determinado programa, de
acuerdo con sus reglas operativas. El capítulo también trata de cómo el mejor
método es el que requiere los supuestos más débiles y tiene la menor cantidad
de requisitos de datos en el contexto de las reglas operativas.
En el capítulo 12 se analiza la relación entre los equipos de investigación y

de políticas públicas y sus respectivos roles. También se aborda la diferencia
entre independencia y ausencia de sesgo, y se destacan ámbitos que pueden
revelarse como sensibles en la realización de una evaluación de impacto. El
capítulo ofrece orientación sobre cómo gestionar las expectativas de las par-
tes interesadas y destaca algunos de los riesgos habituales presentes en las
evaluaciones de impacto, así como sugerencias sobre cómo gestionar esos
riesgos. Concluye con una visión general de cómo gestionar las actividades
de evaluación de impacto, entre ellas la creación del equipo de evaluación, el
calendario de la evaluación, el presupuesto y la recaudación de fondos.
El capítulo 13 proporciona una visión general de la ética y la ciencia de la eva-

luación de impacto, lo que incluye la importancia de no negar los beneficios
a los beneficiarios elegibles en aras de la evaluación; cómo aplicar principios
básicos de investigación ética con sujetos humanos; el rol de las juntas de
revisión institucional que aprueban y monitorean la investigación con dichos
sujetos; y la importancia de practicar la ciencia abierta, lo cual implica registrar
las evaluaciones y divulgar públicamente los datos para otras investigaciones
y para replicar los resultados.
El capítulo 14 presenta visiones novedosas sobre cómo utilizar las evaluacio-

nes de impacto para fundamentar las políticas públicas, lo que abarca consejos
sobre cómo destacar la relevancia de los resultados, un debate sobre el tipo
de productos que las evaluaciones de impacto pueden y deben elaborar, y
orientación sobre cómo producir y divulgar los hallazgos para maximizar el
impacto de las políticas.
CAPÍTULO 11
Elección de un método de
¿Qué método usar en un determinado programa?
La clave para identificar el impacto causal de un programa consiste en

encontrar un grupo de comparación válido para estimar el contrafactual y
responder a la pregunta de interés de la política pública. En la segunda
parte de este volumen se abordaron diversos métodos, entre ellos la asigna-
ción aleatoria, las variables instrumentales, la regresión discontinua, las
diferencias en diferencias y el pareamiento. En este capítulo, se analizará la
pregunta relacionada con qué método elegir para un determinado pro-
grama que se quiera evaluar.
En primer lugar, se muestra que las reglas operativas del programa cons-
tituyen una clara orientación para encontrar grupos de comparación y, por
lo tanto, para hallar el método más adecuado para su contexto de políticas.
Un principio general es que si las reglas operativas de un programa están
bien definidas, pueden ayudar a determinar cuál es el método más ade-
cuado para evaluar ese programa concreto.
En segundo lugar, los métodos introducidos en la segunda parte tie-
nen diferentes requisitos de datos y se basan en diferentes supuestos
fundamentales. Algunos métodos requieren supuestos más fuertes que
otros para estimar con precisión los cambios en los resultados
207
“causados” por la intervención. En general, se prefiere el método que
requiere los supuestos más débiles y tiene la menor cantidad de requisi-
tos de datos en el contexto de las reglas operativas.
Por último, se examina cómo elegir la unidad de intervención. Por
ejemplo, ¿el programa se asignará a nivel individual, o a un nivel superior,
como las comunidades o los distritos? En general, conviene elegir la uni-
dad de intervención factible más pequeña dentro de las limitaciones
operativas.
Cómo las reglas operativas de un programa

pueden contribuir a elegir un método de
Concepto clave Uno de los principales mensajes de este libro es que se pueden usar las
Las reglas operativas reglas operativas de un programa para encontrar grupos de comparación
de un programa válidos, en la medida en que las reglas operativas del programa estén bien
determinan qué definidas. De hecho, dichas reglas brindan orientación en cuanto al método
método de evaluación
más adecuado para evaluar ese programa concreto. Las reglas operativas del
de impacto es el más
adecuado para evaluar programa son las que pueden y deben regir en el método de evaluación, no a
el programa, no a la la inversa. La evaluación no debería cambiar drásticamente elementos clave
inversa. de las reglas de asignación del programa bien definidas en aras de un diseño
de evaluación más claro.
Las reglas operativas más pertinentes para el diseño de la evaluación son
aquellas que identifican quiénes son elegibles para el programa y cómo se
seleccionan para que participen. Los grupos de comparación provienen de
aquellos sujetos elegibles pero que no pueden incorporarse al programa en
un determinado momento (por ejemplo, cuando los recursos son limitados
y hay exceso de demanda), o de aquellos que se encuentran cerca de un
umbral de elegibilidad para participar en el programa.
Concepto clave
Cuando se diseñan
Principios de las reglas de asignación al programa bien definidas
evaluaciones de
impacto, casi siempre Al diseñar las evaluaciones de impacto, siempre se pueden encontrar grupos
se pueden encontrar
de comparación válidos si las reglas operativas para seleccionar a los
grupos de comparación
válidos si las reglas beneficiarios son equitativas, transparentes y están sujetas a rendición de
operativas para cuentas:
seleccionar a los
beneficiarios son • Las reglas equitativas de asignación al programa clasifican o priorizan la
equitativas, elegibilidad en función de un indicador de las necesidades acordado
transparentes y están comúnmente, o estipulan que a todos se les ofrezcan los beneficios del
sujetas a rendición de programa, o que al menos tengan iguales posibilidades de que les ofrez-
cuentas. can los beneficios.
• Las reglas de asignación al programa se divulgan y son transparentes, de
modo que las partes externas las acepten implícitamente y puedan com-
probar que en efecto hay un seguimiento. Las reglas transparentes debe-
rían ser cuantificables y fácilmente observables.
• Las reglas sujetas a rendición de cuentas son responsabilidad de los fun-
cionarios del programa y su implementación es la base del desempeño en
el trabajo o de las recompensas de esos funcionarios.
Las reglas operativas de elegibilidad son transparentes y están sujetas
a rendición de cuentas cuando los programas utilizan criterios cuantifi-
cables que pueden ser verificados por organizaciones externas y cuando
hacen públicos dichos criterios. La equidad, la transparencia y la rendi-
ción de cuentas aseguran que los criterios de elegibilidad sean verifica-
bles cuantitativamente y estén realmente implementados según su
diseño. Como tales, estos principios de buena gobernanza mejoran la
probabilidad de que el programa realmente beneficie a la población foca-
lizada y también constituyen la clave de una evaluación exitosa. Si las
reglas no son cuantificables y verificables, el equipo de evaluación tendrá
dificultades para asegurar que la asignación a los grupos de tratamiento
y comparación se produzca siguiendo el diseño o, como mínimo, docu-
mentando cómo sucedió en la práctica. Si los miembros del equipo de
evaluación no pueden verificar la asignación en la práctica, no pueden
analizar correctamente los datos para calcular los impactos. Entender
las reglas de asignación del programa es fundamental para seleccionar
un método de evaluación adecuado.
Cuando las reglas operativas incumplen cualquiera de estos tres prin-
cipios de buena gobernanza, surgen dificultades tanto para crear un pro-
grama bien diseñado como para llevar a cabo la evaluación. Es difícil
encontrar grupos de comparación válidos si las reglas que determinan la
elegibilidad y la selección de los beneficiarios no son equitativas ni trans-
parentes, ni están sujetas a rendición de cuentas. En este caso, el diseño
de una evaluación de impacto puede requerir aclaraciones y ajustes en el
funcionamiento del programa. Sin embargo, si las reglas están bien defi-
nidas, el método de evaluación de impacto se puede elegir sobre la base
de las reglas existentes de asignación del programa, como se explica a
continuación con más detalle.
Reglas operativas clave
Las reglas operativas suelen definir cuáles son los beneficios del programa,
cómo se financian y se distribuyen estos beneficios y de qué modo el
programa selecciona a los beneficiarios. Las reglas que gobiernan
Elección de un método de evaluación de impacto 209
los programas y la selección de los beneficiarios son clave para encontrar
grupos de comparación válidos. Las reglas que gobiernan la selección de los
beneficiarios comprenden la elegibilidad, las reglas de asignación en el caso
de recursos limitados y el orden de incorporación de los beneficiarios a lo
largo del tiempo. Más específicamente, las reglas clave que generan una hoja
de ruta para encontrar grupos de comparación corresponden a tres pregun-
tas operativas fundamentales en relación con los recursos de los que dis-
pone un programa, los criterios de elegibilidad y el calendario de la
implementación:
1. Recursos disponibles: ¿El programa tiene suficientes recursos para imple-

mentarse a escala y atender a todos los beneficiarios elegibles? Los
gobiernos y las organizaciones no gubernamentales (ONG) no siempre
tienen suficientes recursos para proporcionar los servicios del programa
a todos los que son elegibles y se postulan a los programas. En ese caso, el
gobierno u ONG debe decidir cuáles son los postulantes elegibles que
recibirán los beneficios del programa y cuáles quedarán excluidos. En
muchas ocasiones, los programas se limitan a regiones geográficas espe-
cíficas o a un número restringido de comunidades, aun cuando pueda
haber beneficiarios elegibles en otras regiones o comunidades.
2. Criterios de elegibilidad: ¿Quién es elegible para recibir los beneficios del

programa? ¿La asignación del programa se basa en un umbral de elegibi-
lidad, o está disponible para todos? Las escuelas públicas y la atención
primaria de salud suelen ser de carácter universal. Muchos programas
utilizan reglas operativas de elegibilidad que dependen de una clasifica-
ción continua y un umbral definido. Por ejemplo, los sistemas de jubila-
ción establecen una edad límite por encima de la cual las personas de
edad avanzada son elegibles. Los programas de transferencias condicio-
nadas suelen clasificar a los hogares a partir de su nivel estimado de
pobreza y los hogares por debajo de un umbral de pobreza predetermi-
nado se consideran elegibles.
3. Calendario de implementación: ¿Los beneficiarios potenciales se inscri-

ben en el programa todos al mismo tiempo o por fases? A menudo, las
limitaciones administrativas y de recursos impiden que los gobiernos y
las ONG proporcionen beneficios de forma inmediata a toda la población
elegible. Deben implementar sus programas a lo largo del tiempo y, por lo
tanto, decidir quién es objeto de los beneficios primero y quién se incor-
pora más tarde. Un enfoque común consiste en ampliar un programa en
fases geográficamente, a lo largo del tiempo, incorporando a todos los
beneficiarios elegibles en una comunidad o región antes de pasar a la
siguiente.
Creación de grupos de comparación a partir de las
reglas operativas
Al diseñar evaluaciones de impacto prospectivas, la respuesta a las tres pre-

guntas operativas determina en gran parte el método de evaluación de
impacto más adecuado para un cierto programa. El cuadro 11.1 recoge los
Cuadro 11.1 Relación entre las reglas operativas de un programa y los métodos de
Exceso de demanda del programa No exceso de demanda del programa

(recursos limitados) (recursos suficientes)
(1) (2) (3) (4)
Criterios de Índice continuo y Sin índice continuo Índice continuo Sin índice continuo y
elegibilidad umbral de y umbral de y umbral de umbral de
elegibilidad elegibilidad elegibilidad elegibilidad
(A) Celda A1 Celda A2 Celda A3 Celda A4

Implemen- Asignación Asignación Asignación Asignación aleatoria
tación en aleatoria (capítulo 4) aleatoria (capítulo 4) aleatoria en en fases (capítulo 4)
Calendario de implementación
fases DRD (capítulo 6) Variables instru- fases (capítulo 4) Variables instrumen-

mentales (promo- DRD (capítulo 6) tales (promoción
ción aleatoria) aleatoria para
(capítulo 5) participación
DD (capítulo 7) temprana)
(capítulo 5)
DD con parea-
miento (capítulo 8) DD (capítulo 7)
DD con pareamiento
(capítulo 8)
(B) Celda B1 Celda B2 Celda B3 Celda B4
Implemen- Asignación Asignación DRD (capítulo 6) Si participación no es
tación aleatoria (capítulo 4) aleatoria plena:
inmediata DRD (capítulo 6) (capítulo 4) Variables instrumen-
Variables instru- tales (promoción
mentales (promo- aleatoria) (capítulo 5)
ción aleatoria) DD (capítulo 7)
(capítulo 5)
DD con pareamiento
DD (capítulo 7)
(capítulo8)
DD con parea-
miento (capítulo 8)
Nota: DD = diferencias en diferencias; DRD = diseño de regresión discontinua.

posibles grupos de comparación en relación con las reglas operativas espe-
cíficas del programa y las tres preguntas operativas fundamentales relacio-
nadas con los recursos disponibles, las reglas de elegibilidad y el calendario
de implementación. Las columnas se dividen en función de si el programa
tiene o no recursos suficientes para eventualmente cubrir a todos los bene-
ficiarios elegibles potenciales (recursos disponibles) y, además, se subdividen
en programas que tienen un ranking y un límite de elegibilidad continuos y
aquellos que no los tienen (criterios de elegibilidad). Las filas se dividen en
implementación en fases o implementación inmediata del programa (calen-
dario de implementación). En cada celda se recogen las fuentes potenciales
de grupos de comparación válidos, junto con el capítulo relacionado en que
se trata en la segunda parte. Cada celda tiene un rótulo con un índice: la letra
inicial señala la columna en el cuadro (A, B) y el número que sigue indica la
columna (1-4). Por ejemplo, la celda A1 se refiere a la celda de la primera fila
y la primera columna del cuadro. Así, la celda A1 identifica los métodos de
evaluación más adecuados para los programas que tienen recursos limita-
dos, que tienen criterios de elegibilidad y se desarrollan en fases.
La mayoría de los programas debe implementarse en fases a lo largo del
tiempo debido ya sea a limitaciones financieras o a problemas logísticos y
administrativos. Este grupo o categoría cubre la primera fila del cuadro (cel-
das A1, A2, A3 y A4). En este caso, la regla operativa equitativa, transparente
y sujeta a rendición de cuentas consiste en dar a todas las unidades elegibles
la misma oportunidad de ser la primera, segunda, tercera, etc. en acceder al
programa, lo que implica una implementación aleatoria del programa a lo
largo del tiempo.
En los casos en que los recursos son limitados, es decir, en los que nunca
habrá suficientes recursos para alcanzar la plena implementación (celdas A1
y A2, y B1 y B2), puede producirse muy rápidamente un exceso de demanda
de aquellos recursos. Un sorteo para decidir quién entra en el programa
puede ser un enfoque viable para decidir a quién asignar beneficios entre
unidades igualmente elegibles. En este caso, cada unidad elegible tiene la
misma oportunidad de beneficiarse del programa. Un sorteo es un ejemplo
de regla operativa equitativa, transparente y sujeta a rendición de cuentas
para asignar los beneficios del programa entre las unidades elegibles.
Otro tipo de programas comprende a los que se implementan a lo largo
del tiempo y para los que los administradores pueden clasificar los benefi-
ciarios potenciales en función de la necesidad (celdas A1 y A3). Si los crite-
rios utilizados para priorizar a los beneficiarios son cuantitativos, están
disponibles y tienen un umbral de elegibilidad, el programa puede usar un
diseño de regresión discontinua.
La otra categoría amplia consiste en programas que tienen la capacidad
administrativa para implementarse inmediatamente: es decir, las celdas en
la fila inferior del cuadro. Cuando el programa tiene recursos limitados y no
es capaz de clasificar a los beneficiarios (celda B2), podría utilizarse la asig-
nación aleatoria basada en el exceso de demanda. Si el programa tiene sufi-
cientes recursos para ampliarse y ningún criterio de elegibilidad (celda B4),
la única solución es utilizar variables instrumentales (promoción aleatoria)
bajo el supuesto de participación no plena en el programa. Si el programa
puede clasificar a los beneficiarios y depende de criterios de elegibilidad, se
puede recurrir a la regresión discontinua.
Priorización de los beneficiarios
Las tres preguntas operativas clave guardan relación con el tema fundamen-
tal de cómo se seleccionan los beneficiarios, lo cual es crucial para encontrar
grupos de comparación válidos. En ocasiones, los grupos de comparación se
hallan entre las poblaciones no elegibles, y con mayor frecuencia entre las
poblaciones que son elegibles pero que se incorporan al programa más
tarde. La manera de priorizar entre los beneficiarios depende en parte de los
objetivos del programa ¿Se trata de un programa de jubilaciones para las
personas de edad avanzada, un programa de alivio de la pobreza focalizado
en los pobres o un programa de inmunización disponible para todos?
Para priorizar entre los beneficiarios sobre la base de la necesidad, el pro-
grama debe encontrar un indicador que sea a la vez cuantificable y verifica-
ble. En la práctica, la viabilidad de la priorización depende en gran parte de
la capacidad del gobierno para medir y clasificar las necesidades. Si el
gobierno puede clasificar adecuadamente a los beneficiarios en función de
sus necesidades relativas, puede que esté éticamente obligado a implemen-
tar el programa de acuerdo con las necesidades. Sin embargo, clasificar en
función de la necesidad requiere no solo una medida cuantificable sino tam-
bién la capacidad y los recursos para medir ese indicador para cada unidad
que participa en el programa.
Algunos programas utilizan criterios de selección que, en principio,
podrían usarse para clasificar necesidades relativas y determinar la elegibili-
dad. Por ejemplo, numerosos programas quieren llegar a las personas pobres.
Sin embargo, los indicadores de pobreza adecuados que clasifican a los hoga-
res de manera fiable a menudo son difíciles de medir y costosos de recopilar.
La recopilación de datos de los ingresos o del consumo de todos los benefi-
ciarios potenciales para clasificarlos según el nivel de pobreza es un proceso
complejo y oneroso que, además, sería difícil de verificar. Al contrario,
muchos programas utilizan algún tipo de proxy mean test para estimar los
niveles de pobreza. Se trata de índices de medidas observables sencillas
como los activos y las características sociodemográficas (Grosh et al., 2008).
Los proxy mean tests pueden ayudar a determinar razonablemente bien si un
hogar se sitúa por encima o por debajo de un umbral, pero pueden ser menos
precisos en una clasificación detallada de la situación socioeconómica o de
las necesidades.
En lugar de enfrentarse al costo y a la complejidad de clasificar a los
potenciales beneficiarios individuales, numerosos programas han decidido
clasificar en un nivel superior de agregación, como el nivel de la comunidad.
Determinar la asignación del programa a un nivel agregado tiene beneficios
operativos evidentes, pero a menudo es difícil encontrar indicadores para
producir una clasificación de las necesidades en un nivel más agregado.
En los casos en que un programa no puede asignar beneficios de manera
fiable sobre la base de la necesidad, ya sea porque no hay indicadores de
clasificación cuantificables y verificables, o porque es demasiado caro y pro-
penso a errores, se tienen que usar otros criterios para decidir cómo secuen-
ciar la implementación del programa. Un criterio coherente con la buena
gobernanza es la equidad. Una regla equitativa sería dar a todos aquellos que
son elegibles la misma oportunidad de ser el primero en tener acceso, y asig-
nar de forma aleatoria un lugar en la secuencia a los beneficiarios potencia-
les. En la práctica, dadas las dificultades para clasificar las necesidades, una
regla de asignación al programa que suele usarse es la asignación aleatoria
de los beneficios del programa. También produce un diseño de evaluación
aleatoria que puede proveer buena validez interna si se implementa bien, y
puede depender de supuestos más débiles en comparación con los otros
métodos, como se trata en la sección siguiente.
Una comparación de métodos de evaluación de

impacto
Después de estimar qué método de evaluación de impacto es adecuado para

las reglas operativas específicas del programa, el equipo de evaluación
puede elegir el método que tiene el supuesto más débil y los menores requi-
sitos de datos. El cuadro 11.2 presenta una comparación de los métodos de
evaluación de impacto alternativos en términos de los requisitos de datos
para implementarlos y los supuestos fundamentales necesarios para inter-
pretar sus resultados como impactos causales de la intervención. Cada fila
representa un método diferente. Las primeras dos columnas describen los
métodos y las unidades en el grupo de comparación. Las dos últimas colum-
nas recogen los supuestos necesarios para interpretar los resultados como
causales, y los datos necesarios para implementar los métodos.
Todos los métodos requieren supuestos, es decir, para ser capaces de
interpretar resultados como causales se debe creer que son verdad ciertos
hechos que no siempre se pueden verificar empíricamente. En particular,
Cuadro 11.2 Comparación de métodos de evaluación de impacto
¿Quién está en el
grupo de
Metodología Descripción comparación? Supuesto clave Datos requeridos
Asignación aleatoria Las unidades elegibles se Las unidades elegibles se La aleatorización produce Datos de seguimiento de
asignan de forma aleatoria asignan aleatoriamente al dos grupos estadísticamente los resultados en los
a un grupo de tratamiento grupo de comparación. idénticos con respecto a las grupos de tratamiento y
o de comparación. Cada características observables y comparación; datos de
unidad elegible tiene una no observables a lo largo del línea de base y otras
probabilidad conocida de tiempo en ausencia de la características para los
ser seleccionada. Tiende a intervención (en la línea de grupos de tratamiento y
generar estimaciones de base y a lo largo del comparación con el fin
impacto internamente seguimiento). de verificar el equilibrio.
válidas con los supuestos
más débiles.
Variables instrumentales Un instrumento aleatoriza- Las unidades que El instrumento afecta la Datos de seguimiento de
(concretamente la do (como una campaña de cumplen con los participación en el programa, los resultados de todas
promoción aleatoria) promoción) induce requisitos para participar pero no afecta directamente las unidades; datos sobre
cambios en la participación pero cuya participación los resultados (es decir, el la participación efectiva
en el programa que se se ve afectada por el instrumento influye en los en el programa; datos de
evalúa. El método utiliza el instrumento (participa- resultados solo cambiando la los resultados de línea de
cambio en los resultados rían si se exponen al probabilidad de participar en base y otras característi-
inducido por el cambio en instrumento pero no lo el programa). cas.
las tasas de participación harían en caso contrario).
para estimar los impactos
del programa.
215
Cuadro 11.2 Comparación de métodos de evaluación de impacto (continúa)
216
¿Quién está en el
grupo de
Metodología Descripción comparación? Supuesto clave Datos requeridos
Diseño de regresión Las unidades se clasifican Las unidades situadas Para identificar impactos no Datos de seguimiento de
discontinua a partir de criterios cerca del umbral, pero sesgados en el programa los resultados; índice de
cuantitativos específicos que no son elegibles para la población cercana al clasificación y umbral de
y continuos, como un para recibir el programa. umbral, las unidades que se elegibilidad; datos sobre
índice de pobreza. Un encuentran inmediatamente los resultados de línea de
umbral determina si una por debajo e inmediatamente base y otras característi-
unidad es elegible para por encima del umbral son cas.
participar en un programa. estadísticamente idénticas.
Los resultados de los Para identificar los impactos
participantes en una parte no sesgados en el programa
del umbral se comparan para toda la población, la
con los resultados de los población cercana al umbral
no participantes al otro debe ser representativa de
lado del umbral. toda la población.
Diferencias en diferencias El cambio en el resultado Las unidades que no Si el programa no existía, los Datos de línea de base y
a lo largo del tiempo en participaron en el resultados de los grupos de de seguimiento de los
un grupo de no participan- programa (por cualquier participantes y no participan- resultados y otras
tes se utiliza para estimar motivo) y para las cuales tes habrían evolucionado características tanto para
cuál habría sido el cambio se recopilaron datos paralelamente a lo largo del los participantes como
en los resultados de un antes y después del tiempo. para los no participantes.
grupo de participantes en programa.
ausencia de un programa.
Paramiento (en particular, Para cada participante del Para cada participante, la No hay ninguna característi- Seguimiento de los datos
pareamiento por puntajes programa, el método unidad no participante ca que influya en la participa- de los resultados de los
de propensión) busca la unidad “más que, según las prediccio- ción en el programa más allá participantes y no
similar” en el grupo de no nes sobre la base de de las características participantes; datos
participantes (el parea- características observa- observables utilizadas para sobre la participación
miento más estrecho se bles, tiene la misma el pareamiento. efectiva en el programa;
basa en características probabilidad de haber características de línea
observables). participado en el de base para llevar a
programa. cabo el pareamiento.
Fuente: Adaptado del sitio web de Abdul Latif Jameel Poverty Action Lab (J-PAL).
para cada método, un supuesto clave es que la media del grupo de compara-
ción de la que depende el método sea una estimación válida del contrafac-
tual. En cada uno de los capítulos sobre los métodos, que se presentan en la
segunda parte de este volumen, se han expuesto algunas consideraciones
sobre cómo probar si un método es válido en un contexto particular. Algunos
métodos dependen de supuestos más fuertes que otros.
Ceteris paribus, el método preferido es el que mejor se adecua al contexto Concepto clave
operativo y el que requiere los supuestos más débiles y la menor cantidad de El método de
datos. Estos criterios explican por qué los investigadores consideran la asig- evaluación de impacto
nación aleatoria la regla de oro, y por qué a menudo es el método preferido. preferido es aquel que
La asignación aleatoria se adecua a numerosos contextos operativos y tiende se adecua mejor al
a generar estimaciones de impacto internamente válidas con los supuestos contexto operativo,
requiere los supuestos
más débiles. Cuando se implementa de manera adecuada, genera compara-
más débiles y la menor
bilidad entre los grupos de tratamiento y comparación en características cantidad de datos.
observables y no observables. Además, la asignación aleatoria tiende a
requerir muestras más pequeñas que las necesarias para implementar méto-
dos cuasi-experimentales (véase el debate en el capítulo 15). Dado que la
asignación aleatoria es relativamente intuitiva, el método también facilita la
comunicación de resultados a los responsables de las políticas.
Puede que los métodos cuasi-experimentales sean más adecuados en
algunos contextos operativos, pero requieren más supuestos con el fin de
que el grupo de comparación provea una estimación válida del contrafac-
tual. Por ejemplo, el método de diferencias en diferencias depende del
supuesto de que los cambios en los resultados en el grupo de comparación
proporcionen una estimación válida del cambio del contrafactual en los
resultados del grupo de tratamiento. Este supuesto de que los resultados en
los grupos de tratamiento y comparación evolucionan paralelamente a lo
largo del tiempo no es siempre posible de probar sin múltiples rondas de
datos antes de la intervención. La regresión discontinua depende de la com-
parabilidad de las unidades justo por encima y justo por debajo del umbral
de elegibilidad. El pareamiento tiene los supuestos más fuertes de todos los
métodos, y esencialmente descarta cualquier característica no observable
entre los participantes del programa y los no participantes. En general,
cuanto más fuertes sean los supuestos, mayor será el riesgo de que no se
cumplan en la práctica.
Un plan de respaldo para la evaluación
A veces las cosas no salen exactamente como estaban planificadas, incluso

con el mejor diseño de evaluación de impacto y las mejores intenciones.
Por ejemplo, en un programa de capacitación laboral, la agencia ejecu-
tora planeó seleccionar a los participantes de forma aleatoria entre el
conjunto de postulantes, sobre la base del exceso de solicitudes previsto
en el programa. Dado que el desempleo entre la población focalizada era
alto, se anticipó que el número de postulantes al programa de capacita-
ción laboral sería mucho mayor que el número de plazas disponibles.
Desafortunadamente, la publicidad para el programa no fue tan efectiva
como se esperaba y, al final, el número de postulantes se situó justo por
debajo del número de plazas de capacitación disponibles. Sin un exceso
de solicitudes del cual extraer un grupo de comparación, y sin plan de
respaldo, el intento inicial para evaluar el programa tuvo que dejarse de
lado por completo. Este tipo de situación es habitual, como sucede con
los cambios no anticipados en el contexto operativo o político de un pro-
grama. Por lo tanto, es útil tener un plan de respaldo en caso de que la
primera opción de metodología no funcione.
Planificar el uso de varios métodos de evaluación de impacto también es
una buena práctica desde un punto de vista metodológico. Si se plantean
dudas acerca de si uno de los métodos puede tener sesgos, se podrán verifi-
car los resultados comparándolos con el otro método. Cuando se imple-
menta un programa mediante asignación aleatoria en fases, el grupo de
comparación se incorporará eventualmente al programa. Aquello limita el
tiempo durante el cual el grupo de comparación está disponible para la eva-
luación. Sin embargo, si además del diseño de asignación aleatoria también
se implementa un diseño de promoción aleatoria, habrá un grupo de compa-
ración disponible para toda la duración del programa. Antes de que se incor-
pore el grupo final de la implementación, existirán dos grupos de
comparación alternativos (de la asignación aleatoria y de la promoción alea-
toria) aunque en el plazo más largo solo quedará el grupo de comparación
de la promoción aleatoria.
Cómo encontrar la unidad de intervención más

pequeña factible
En general, las reglas operativas también determinan el nivel en que se

puede asignar una intervención, algo que se relaciona con la manera en que
se implementa el programa. Por ejemplo, si se pone en marcha un programa
de salud a nivel de distrito, todas las comunidades del distrito o recibirían el
programa (como grupo) o no lo recibirían. Algunos programas se pueden
implementar de manera eficiente a nivel individual o de los hogares, mien-
tras que otros deben aplicarse a nivel de la comunidad o a un nivel adminis-
trativo superior. Incluso si un programa se puede asignar e implementar a
nivel individual, el equipo de evaluación quizá prefiera un nivel superior de
agregación con el fin de mitigar los efectos potenciales de derrame; es decir,
los efectos indirectos de las unidades que participan en las unidades que no
participan (véase una descripción en el capítulo 9).
Implementar una intervención a un mayor nivel puede ser problemático
para la evaluación, por dos motivos. En primer lugar, las evaluaciones de las
intervenciones asignadas e implementadas a niveles superiores, como la comu-
nidad o el distrito administrativo, requieren tamaños de muestra más grandes
y serán más costosas, en comparación con las evaluaciones de intervenciones a
un nivel más bajo, como el nivel individual o de los hogares. El nivel de inter-
vención es importante porque define la unidad de asignación a los grupos de
tratamiento y comparación, y eso tiene implicaciones para el tamaño de la
muestra de la evaluación y su costo. En las intervenciones implementadas a
niveles superiores, se necesita una muestra más grande para poder detectar el
impacto del programa. La idea que subyace a esto se abordará en el capítulo 15,
donde se analiza cómo determinar el tamaño de la muestra requerido para una
evaluación, y cómo la implementación a niveles más altos crea clusters (conglo-
merados) que incrementan el tamaño requerido de la muestra.
En segundo lugar, a niveles superiores de intervención, es más difícil
encontrar un número suficiente de unidades para realizar la evaluación. Sin
embargo, la asignación aleatoria solo genera grupos de tratamiento y compa-
ración comparables si se lleva a cabo con un número suficiente de unidades.
Por ejemplo, si el nivel de agregación es el de la provincia y el país solo tiene
seis provincias, es poco probable que la aleatorización genere equilibrio
entre los grupos de tratamiento y comparación. En este caso, imagínese que
el diseño de la evaluación asigna tres provincias al grupo de tratamiento y
otras tres al grupo de comparación. Es muy poco probable que las provincias
del grupo de tratamiento sean similares a las del grupo de comparación,
incluso si en cada provincia hay un número grande de hogares. Esto es por-
que la clave para equilibrar los grupos de tratamiento y comparación es el
número de unidades asignadas a los grupos de tratamiento y comparación,
no el número de individuos o de hogares de la muestra. Por lo tanto, llevar a
cabo una asignación aleatoria en niveles altos de implementación pone en
riesgo la validez interna si el número de unidades no es suficiente.
Para evitar los riesgos asociados con la implementación de la intervención
en un nivel geográfico administrativo alto, el equipo de evaluación y los admi-
nistradores del programa tienen que trabajar juntos para encontrar la unidad
de intervención más pequeña que sea operacionalmente factible. Diversos
factores determinan la unidad de intervención más pequeña factible:
• Las economías de escala y la complejidad administrativa en la implemen-
tación del programa.
• La capacidad administrativa para asignar beneficios a nivel individual o
de los hogares.
• Preocupaciones potenciales a propósito de posibles tensiones.
• Preocupaciones potenciales acerca de los efectos de derrame y la conta-
minación del grupo de comparación.
La unidad factible de intervención más pequeña suele depender de las
economías de escala y de la complejidad administrativa de realizar el pro-
grama. Por ejemplo, un programa de seguro de salud quizá requiera una ofi-
cina local para que los beneficiarios presenten reclamos y para pagar a los
proveedores. Los costos fijos de la oficina tienen que repartirse entre un gran
número de beneficiarios, de modo que puede ser ineficiente implementar el
programa a nivel individual y más eficiente si se hace a nivel de la comunidad.
Sin embargo, en situaciones con tipos de intervenciones nuevas y no proba-
das, puede que merezca la pena absorber las ineficiencias de corto plazo e
implementar el programa en los distritos administrativos, para asegurar la
credibilidad de la evaluación y disminuir los costosde la recopilación de datos.
Algunos administradores de programas sostienen que los programas
administrados a nivel local, como los programas de seguro de salud, no tie-
nen las capacidades administrativas para implementar programas a nivel
individual. Su preocupación es que sería una carga crear sistemas para pres-
tar diferentes beneficios a diferentes beneficiarios en unidades administra-
tivas locales, y que acaso resulte difícil garantizar que la asignación a los
grupos de tratamiento y comparación se implemente siguiendo el diseño.
Este último problema es una seria amenaza para una evaluación de impacto,
dado que los administradores del programa quizá no puedan poner en mar-
cha el programa de forma consistente siguiendo un diseño de evaluación. En
este caso, puede que sea necesaria una implementación a un nivel superior
o una simplificación del diseño de evaluación de impacto.
En ocasiones los gobiernos prefieren implementar programas a niveles
más agregados, como el de la comunidad, porque les preocupan las tensio-
nes potenciales que surgen cuando los miembros de los grupos de compara-
ción observan que los vecinos en el grupo de tratamiento tienen derecho a
los beneficios. Numerosos programas se han llevado a cabo con éxito a nivel
individual o de los hogares en las comunidades sin generar tensiones, sobre
todo cuando los beneficios se han asignado de manera equitativa, transpa-
rente y sujetos a rendición de cuentas. Aun así, tendría que tenerse en cuenta
el riesgo de que puedan surgir tensiones en el contexto de una evaluación de
impacto específica.
Por último, cuando se asigna un programa y se implementa a nivel muy
bajo, como en los hogares o a nivel individual, la contaminación del grupo de
comparación puede poner en entredicho la validez interna de la evaluación.
Por ejemplo, imagínese que se evalúa el efecto de proporcionar agua
corriente en la salud de los hogares. Si se instalan grifos de agua para un
Recuadro 11.1: Programas de transferencias monetarias
condicionadas y el nivel mínimo de intervención
La mayoría de las transferencias monetarias elegibles de las comunidades de comparación
condicionadas utiliza a las comunidades se les ofreció la misma oportunidad 18 meses
como el nivel o la unidad de intervención por más tarde, en el invierno de 1999. Sin
motivos administrativos y de diseño de embargo, el equipo de evaluación encontró
programa, y debido a preocupaciones acerca una correlación considerable en los resultados
de los efectos de derrame y de posibles entre los hogares de las propias comunidades.
tensiones en la comunidad si el tratamiento Por lo tanto, para generar suficiente potencia
se asignara a un nivel más bajo. estadística para la evaluación, necesitaban
Por ejemplo, la evaluación del programa más hogares en la muestra de lo que habría
de transferencias monetarias condicionadas sido necesario si hubieran sido capaces de
Progresa-Oportunidades de México dependía asignar los hogares individuales a los grupos
de la implementación del programa a de tratamiento y de comparación. Por lo
nivel comunitario en las zonas rurales para tanto, la imposibilidad de implementar el
asignar de forma aleatoria las comunidades programa a nivel de los hogares generó
a los grupos de tratamiento y comparación. requisitos de tamaños más grandes de la
A todos los hogares elegibles de las muestra y aumentó el costo de la evaluación.
comunidades de tratamiento se les ofreció la Otras dificultades similares afectan a muchos
oportunidad de inscribirse en el programa en de los programas en el sector de desarrollo
la primavera de 1998, y a todos los hogares humano.
Fuentes: Behrman y Hoddinott (2001); Skoufias y McClafferty (2001).
hogar pero no para su vecino, el hogar de tratamiento bien puede compartir

el uso del grifo con un vecino de comparación y, por lo tanto, el hogar vecino
no sería una verdadera comparación, dado que se beneficiaría del efecto de
derrame.
El recuadro 11.1 ilustra las implicaciones de la selección de un nivel de
intervención en el contexto de las transferencias condicionadas. En la prác-
tica, los administradores de programa tienen que optar por la unidad facti-
ble de intervención más pequeña que (1) permita contar con un gran número
de unidades en la evaluación, (2) mitigue los riesgos para la validez interna,
y (3) se ajuste al contexto operativo.
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos con más

Behrman, J. R. y J. Hoddinott. 2001. “An Evaluation of the Impact of PROGRESA
on Preschool Child Height.” Documento de discusión Núm. 104. Washington,
D.C.: International Food Policy Research Institute.
Grosh, M. E., C. Del Ninno, E. Tesliuc y A. Ouerghi. 2008. For Protection and
Promotion: The Design and Implementation of Effective Safety Nets. Washington,
D.C.: Banco Mundial.
Skoufias, E. y B. McClafferty. 2001. “Is Progresa Working? Summary of the Results
of an Evaluation by IFPRI.” Washington, D.C.: International Food Policy
Research Institute.

CAPÍTULO 12
Gestión de una evaluación

de impacto
Gestión del equipo, del tiempo y del presupuesto

de una evaluación
Una evaluación es una alianza entre un equipo de políticas públicas y un

equipo de investigación. Cada grupo depende del otro para el éxito de la
evaluación. Juntos, constituyen el equipo de evaluación. La alianza se basa
en la comprensión de los roles y responsabilidades respectivas de ambos
equipos, un compromiso conjunto con la evaluación y un reconocimiento de
lo que motiva a las personas a trabajar en la evaluación. Una alianza efectiva
es fundamental para asegurar la credibilidad técnica y el impacto de una
evaluación en las políticas públicas.
En este capítulo se describen los elementos de una alianza efectiva, lo
cual incluye los roles y responsabilidades de cada equipo. También se ana-
liza cómo funciona la alianza en diferentes etapas del proceso de evaluación
y se describen los modelos alternativos de colaboración. El capítulo también
aborda cuestiones prácticas de calendario y presupuesto.
223
Roles y responsabilidades de los equipos de
investigación y de políticas públicas
El equipo de investigación: función de la investigación y función

de los datos
El equipo de investigación es responsable de la calidad técnica y la integri-

dad científica del trabajo de evaluación. Sus responsabilidades abarcan el
diseño de la investigación, la calidad de los datos y el análisis. Los equipos de
investigación suelen trabajar con las siguientes personas:
• El investigador principal trabaja con los responsables de las políticas y los

encargados del programa para: establecer objetivos clave, cuestiones de
políticas, indicadores y necesidades de información de la evaluación
(a menudo utilizando una teoría del cambio, como una cadena de resulta-
dos); decidir cuál es la metodología de evaluación de impacto; desarrollar
el plan de evaluación; conformar el equipo de investigación; registrar la
evaluación de impacto, obtener aprobaciones de la junta de revisión insti-
tucional; preparar un plan de evaluación, incluido un plan detallado de
preanálisis; dirigir el análisis de los resultados; y colaborar con el equipo
de políticas públicas para divulgar los resultados. El investigador princi-
pal debe poder trabajar efectivamente con todo el equipo de evaluación,
incluyendo la organización encargada de la recopilación de datos, otros
miembros del equipo de investigación y los responsables de las políticas
públicas o encargados del programa que utilizan los datos y los resultados
de la evaluación. Diversos investigadores pueden trabajar con el investi-
gador principal o como co-investigadores principales para liderar o apo-
yar trabajos analíticos específicos de los elementos, como el muestreo, las
evaluaciones cualitativas o el análisis de costo-efectividad.
• Un gestor de la evaluación o coordinador del trabajo de campo, que trabaja

directamente con el investigador principal en la implementación diaria de
la evaluación. Esto significa trabajar con los encargados del programa y los
responsables de las políticas públicas en el equipo de políticas públicas y
supervisar el trabajo de campo cuando se recopilan los datos primarios.
Esta persona es particularmente importante en aquellos casos en que el
investigador principal carece de una base local, donde se aplica una eva-
luación prospectiva que debe ser coordinada estrechamente con la imple-
mentación del programa o allí donde se recopilan los datos primarios.
• Un experto en muestreo, que orienta el trabajo de cálculo de potencia y

muestreo. En el tipo de evaluación de impacto cuantitativa que trata este
libro, el experto en muestreo debe llevar a cabo cálculos de potencia para

determinar el tamaño adecuado de la muestra según los indicadores esta-
blecidos, seleccionar la muestra, comparar los resultados de la muestra
real con los de la muestra diseñada, y ofrecer recomendaciones sobre las
implicancias para el análisis en coincidencia con el plan de preanálisis.
El investigador principal a menudo lleva a cabo estas funciones directa-
mente o junto con el experto en muestreo.
• Un equipo de recopilación de datos, que es el encargado de elaborar los
instrumentos de recopilación de datos y los manuales y libros de código
correspondientes; debe recopilar, digitar y limpiar los datos, y entregar
una base de datos limpia y documentada cuando se requiera una recopi-
lación de datos primarios. El capítulo 16 aborda las fuentes de los datos y
los diversos aspectos de la recopilación de los mismos.
El equipo de políticas públicas: función de políticas y función de

gestión del programa
El equipo de políticas públicas está formado por responsables de políticas y

encargados del programa:
• Los responsables de las políticas establecen la agenda de investigación,
definen la pregunta fundamental que aborda el estudio, aseguran los
recursos adecuados para el trabajo, y aplican los resultados a las políticas.
Al comienzo de la evaluación, deben articular con claridad los objetivos
tanto del programa como de la evaluación, así como la teoría del cambio
y los principales indicadores de interés, lo que incluye el tamaño del
efecto mínimo relevante para las políticas de los indicadores de resultado
de interés, como se detalla en el capítulo 2. El equipo de políticas públicas
tiene conocimiento del diálogo de políticas y de los contactos con las
principales partes interesadas con el fin de asegurar que la evaluación se
diseñe para ser lo más relevante posible para las políticas, y para garanti-
zar que los interesados y los responsables de la toma de decisiones ade-
cuados participen en momentos clave del proceso de evaluación.
• Los encargados del programa trabajan mano a mano con el equipo de

investigación para alinear el diseño de evaluación con la implementación
del programa. Esto incluye verificar que el diseño de evaluación se base
en información precisa de la operación del programa y comprometerse a
implementar el programa según lo planificado, en el caso de las evalua-
ciones prospectivas. Los encargados del programa en el equipo de políti-
cas públicas también suelen gestionar el presupuesto de evaluación y a
menudo ayudan al equipo de investigación a supervisar el trabajo de
campo en la recopilación de datos.
Gestión de una evaluación de impacto 225

¿A quién le importa la evaluación y por qué?
Concepto clave Desde la perspectiva del equipo de políticas públicas, normalmente el

Una alianza efectiva principal interés es saber si el programa o la reforma son efectivos o no, y
entre el equipo de a qué costo se alcanzaron los resultados. Los encargados locales del pro-
políticas públicas y el
grama tendrán interés en asegurar que sus esfuerzos sean valorados y que
equipo de investigación
es crucial para asegurar se les otorgue crédito y visibilidad por su trabajo. Emprender una evalua-
la credibilidad técnica y ción de impacto significa un esfuerzo considerable de una amplia gama de
el impacto de una partes interesadas, a menudo más allá de los límites de sus responsabilida-
evaluación en las des diarias. Una buena manera de apreciar estas contribuciones consiste
políticas. en asegurar que los equipos locales participen activamente en la gama
más amplia de actividades de evaluación. Esto se puede conseguir cele-
brando talleres conjuntos, así como también elaborando publicaciones
conjuntas, garantizando la capacitación y el desarrollo de capacidades, y
consiguiendo investigadores locales bien situados para que contribuyan
de manera adecuada y sirvan como un canal válido entre los equipos de
investigación y de políticas.
Las evaluaciones tienen valor en términos de bien público cuando
fundamentan una pregunta de interés más allá del interés inmediato del
equipo de políticas. Este aspecto suele encerrar un interés primario para
los investigadores que analizan preguntas relacionadas con una teoría
del cambio. Por ejemplo, los resultados sobre cómo se comportan las
personas en ciertas circunstancias o cómo funcionan los canales de
transmisión para que los impactos se materialicen permiten extraer lec-
ciones de orden más general y aplicarlas en diferentes contextos. Las
evaluaciones de impacto están contribuyendo rápidamente a una base
de evidencia global sobre el desempeño de una gama de reformas de pro-
gramas y políticas, y constituyen repositorios de conocimientos suma-
mente relevantes para el diseño de programas y políticas. A los donantes
y a los institutos relacionados con las políticas a menudo les interesa
este valor más amplio de bien público, y cada vez prestan más apoyo
financiero para llevar a cabo evaluaciones que contribuyan a esta base de
evidencia.
Los investigadores también estarán muy comprometidos con el uso de
una metodología de evaluación robusta y defendible, y tendrán que asegu-
rar su participación en el diseño de la evaluación de impacto, en el análisis
de los datos y en generar investigación primaria que cumpla con las nor-
mas científicas vigentes en las publicaciones académicas. Los equipos de
investigación interdisciplinaria tienen el reto añadido de asegurar que
exista un entendimiento común entre los miembros del equipo. Diferentes
disciplinas, como la medicina y la economía, pueden tener distintos enfo-
ques para registrar los ensayos, reclutar a los sujetos, informar sobre los

resultados o divulgarlos, entre otras cosas. Estas expectativas diversas se
aclaran y se entienden mejor al comienzo de una evaluación. Al margen de
los diferentes protocolos, se espera que los equipos de investigación sigan
normas científicas y principios éticos generalmente aceptados, como se
trata en el capítulo 13.
Los diferentes intereses del equipo de políticas y del equipo de investi-
gación pueden crear tensiones que hay que entender y gestionar. Los
investigadores tenderán a valorar el rigor técnico en el diseño de una eva-
luación antes que la viabilidad operativa de la implementación del pro-
grama. Puede que a los equipos también les interesen distintas preguntas
de la evaluación. Por último, puede que ninguno de los dos equipos tenga
interés en publicar resultados matizados o negativos, dado que esto
podría reflejarse negativamente en el desempeño del programa para el
equipo de políticas públicas y podría tener menos interés académico para
el equipo de investigación. Puede que al equipo de políticas también le
interese ser selectivo a propósito de qué resultados publicar, mientras
que el equipo de investigación valorará la capacidad de publicar toda la
gama de resultados.
En el conjunto del equipo de evaluación, es crucial promover una cul-
tura de transparencia y de respeto por la evidencia. A los responsables de
las políticas públicas y a los administradores del programa se les debería
recompensar por su compromiso con la formulación de políticas basadas
en la evidencia. Incluso cuando los resultados no sean favorables, se
debería dar crédito a estos actores por haber abogado por la transparen-
cia. De la misma manera, se debería alentar al equipo de investigación a
informar sobre los resultados y publicarlos, independientemente de los
hallazgos.
La alianza entre el equipo de investigación y el equipo de políticas

públicas durante la evaluación
La calidad técnica y el impacto de la evaluación en las políticas públicas

dependen de una activa alianza entre el equipo de investigación y el
equipo de políticas en cada etapa de la evaluación, a saber: diseño, imple-
mentación, análisis y divulgación. El recuadro 12.1 resume algunos princi-
pios rectores.
Etapa de diseño. En primer lugar, los responsables de las políticas tienen
que estructurar y transmitir con claridad las principales preguntas de la
investigación, la correspondiente teoría del cambio y los indicadores clave
de interés, así como también asegurar que el equipo de investigación com-
prenda de forma adecuada estos elementos y los respete. Para asegurar la

Recuadro 12.1: Principios rectores de la participación de los
equipos de políticas públicas y de evaluación
H Participar desde el comienzo para maximizar las opciones del diseño de la evaluación y
asegurar una asociación efectiva entre los equipos de políticas públicas y de evaluación.
H Tener claro un plan de evaluación de impacto desde el comienzo.
H Comprender los roles, responsabilidades y motivaciones de las diferentes partes intere-
sadas y darles la oportunidad de participar en la evaluación.
H Participar a lo largo de la evaluación para asegurar una alineación adecuada entre la evalu-
ación y la intervención que se evalúa.
H Reconocer y gestionar los riesgos y beneficios, dejando claro qué pueden y no pueden
hacer las evaluaciones de impacto.
H Valorar la transparencia y asegurar la objetividad; estar preparados para respetar los resul-
tados, sean buenos o malos.
relevancia de las políticas, el equipo de políticas públicas también tiene que

estructurar una estrategia de participación que garantice que se consulte y se
informe a las partes interesadas acerca del diseño, de la implementación y de
los resultados de la evaluación. Por su parte, los investigadores tienen que
aclarar, para el equipo de políticas públicas, las condiciones necesarias para
una buena evaluación de impacto. En el caso de las evaluaciones prospecti-
vas, esto significará, primero, verificar con los encargados del programa y los
responsables de las políticas del equipo de políticas públicas que las opera-
ciones del programa estén lo suficientemente bien establecidas para asegu-
rar que el programa que se evalúa no cambiará sustancialmente durante la
evaluación y, por lo tanto, no volverá irrelevantes los resultados de los objeti-
vos de políticas. El momento ideal para llevar a cabo una evaluación de
impacto suele ser aquel en el que un programa ha sido sometido a suficientes
pruebas de campo como para afirmar que funciona de la manera prevista –lo
cual puede fundamentarse en una buena evaluación de proceso–, pero que
no ha sido ampliado, por lo que deja abiertas las opciones para construir con-
trafactuales adecuados.
En segundo lugar, el equipo de investigación tiene que entender con cla-
ridad las reglas operativas del programa, a saber: sus recursos disponibles,
sus criterios de elegibilidad para seleccionar a los beneficiarios y el calenda-
rio de implementación. El equipo de políticas públicas debería trasmitir cla-
ramente estas tres reglas operativas al equipo de investigación, dado que son
cruciales para fundamentar las opciones metodológicas disponibles en la
evaluación, como se detalla en el capítulo 11.

En tercer lugar, el equipo de investigación debería preparar un plan
de evaluación de impacto que contenga a la vez aspectos operativos y de
la investigación, y debería compartirlo con los responsables de las polí-
ticas para asegurar que la evaluación se centre en las preguntas de inte-
rés; que los elementos de colaboración con el equipo de políticas estén
definidos, y que el equipo de evaluación sea claro y sencillo acerca de las
preguntas que se formulan, y de la naturaleza y del calendario de resul-
tados (véase el recuadro 12.2). También es útil tomar en cuenta los ries-
gos y las estrategias de mitigación propuestas. Por último, el equipo de
investigación debería obtener la aprobación ética de una junta de
Recuadro 12.2: Descripción general de un plan de evaluación

de impacto
1. Introducción
2. Descripción de la intervención
3. Objetivos de la evaluación
3.1 Hipótesis, teoría del cambio, cadena de resultados
3.2 Preguntas de políticas
3.3 Indicadores de resultados clave
3.4 Riesgos
4. Diseño de evaluación
5. Muestreo y datos
5.1 Estrategia de muestreo
5.2 Cálculos de potencia
6. Visión general del plan de preanálisis
7. Plan de recopilación de datos
7.1 Encuesta de línea de base
7.2 Encuesta(s) de seguimiento
8. Productos por entregar
8.1 Informe de línea de base
8.2 Informe de evaluación de impacto
8.3 Nota informativa sobre políticas
8.4 Bases de datos, diseño y protocolos de análisis plenamente documentados
9. Plan de divulgación
10. Protocolos éticos sobre protección de sujetos humanos
10.1 Asegurar el consentimiento informado
10.2 Obtener aprobación de la junta de revisión institucional
11. Calendario
12. Presupuesto y financiamiento
13. Composición y roles del equipo de evaluación

revisión institucional e inscribir la evaluación en un registro de ensayos
(véase el capítulo 13).
Este diálogo durante la etapa de diseño debería arrojar como resultado
un compromiso claro y compartido con un plan de evaluación, y con
expectativas realistas y responsabilidades mutuamente acordadas de los
miembros de los equipos de políticas públicas y de investigación. Este
diálogo brinda una oportunidad para que el equipo de investigación
aclare tanto el valor de una evaluación de impacto –sobre todo el estable-
cimiento de la causalidad y el carácter generalizable de las conclusiones–
como sus limitaciones, por ejemplo: no presentar explicaciones de por
qué se obtienen ciertos resultados, el trade-off entre el tamaño de la
muestra y los cálculos de potencia, o el tiempo requerido para generar
ciertos resultados. Este diálogo también proporcionará una oportunidad
para que el equipo de políticas especifique preguntas prioritarias y para
asegurar que la evaluación esté bien alineada con las preguntas de interés
de las políticas públicas.
Etapa de implementación. Los equipos de políticas públicas y de investi-
gación tienen que trabajar juntos para asegurar que la implementación pro-
ceda fluidamente y se corrijan los problemas. Por ejemplo, en un ensayo
controlado aleatorio, el equipo tiene que acordar la mejor manera de aleato-
rizar en la práctica. Además, durante esta etapa, la coordinación es especial-
mente importante para garantizar la fidelidad entre el diseño de evaluación
y la implementación del programa.
Etapa de análisis. El análisis que se lleve a cabo debe corresponderse con
lo que ha sido delineado en el plan de evaluación y en el más detallado plan
de preanálisis. El equipo de investigación debería proporcionar y debatir
los resultados con el equipo de políticas públicas en coyunturas clave.
Empezando por la línea de base, esto debería incluir una revisión de la cali-
dad de los datos recopilados y la adhesión al plan de evaluación. Esto con-
tribuirá a asegurar que el plan de evaluación previsto en la etapa de diseño
siga siendo factible y permita cualquier ajuste necesario que deba introdu-
cirse. También es una excelente oportunidad para estudiar qué productos
se entregarán en qué etapa del análisis y para ver si la producción de esos
resultados progresa adecuadamente con respecto a las necesidades de
toma de decisiones del equipo de políticas públicas. Una vez que el equipo
de evaluación ha concluido el análisis de impacto, debería presentar y com-
partir los resultados iniciales con el equipo de políticas para asegurar que
se responda a todas las preguntas y preparar la etapa de divulgación.
Etapa de divulgación. En esta etapa, el equipo de políticas públicas tiene
que asegurar que los resultados de la evaluación lleguen a las personas ade-
cuadas en el momento adecuado y en el formato adecuado. También es la
etapa en que se garantiza que todos los datos de la evaluación estén
documentados de forma apropiada. A menudo, los equipos utilizarán diversas
estrategias y vehículos para divulgar los resultados, teniendo presentes los
diferentes públicos a los que se dirige, como se señala en el capítulo 14.
Establecer una colaboración
Cómo instituir una alianza
Una evaluación es un equilibrio entre los conocimientos técnicos expertos y

la independencia que aporta el equipo de investigación, y la relevancia de las
políticas, la orientación estratégica y la coordinación operativa con las que
contribuyen los responsables de las políticas y los encargados del programa
en el equipo de políticas públicas. Se puede utilizar una gama de modelos
para crear e implementar esta alianza entre los equipos de investigación y
de políticas públicas.
La elección de la modalidad dependerá del contexto y de los objetivos de la
evaluación de impacto, teniendo en cuenta una gama de riesgos. Por un lado,
un equipo de investigación totalmente independiente, en colaboración limi-
tada con el equipo de políticas públicas, puede generar una evaluación de
impacto desvinculada de las preguntas de interés de políticas, o que use una
metodología limitada por la falta de interacciones con los encargados del pro-
grama. Por otro lado, un equipo de investigación plenamente integrado con el
equipo de políticas públicas puede crear riesgos de conflictos de interés, o con-
ducir a la censura de ciertos resultados si no se aplican los principios de la cien-
cia abierta (véase el capítulo 13). Además, las evaluaciones a menudo pueden
tener múltiples objetivos, entre ellos construir capacidad de evaluación con los
organismos del gobierno o sensibilizar a los operadores del programa ante las
realidades de sus proyectos al llevarse a cabo en el terreno. Estos objetivos más
amplios también pueden determinar parcialmente el modelo que se elegirá.
En general, lo que más importa en la calidad de la evaluación de impacto es
si el enfoque de asociación producirá estimaciones no sesgadas de los impac-
tos del programa. Siempre que se respeten los principios éticos de la investiga-
ción y la ciencia abierta, la ausencia de sesgo y la objetividad tienden a ser más
cruciales para la calidad de la evaluación de impacto que la independencia
funcional de los equipos de investigación y de políticas. En la práctica, a
menudo se requiere una estrecha colaboración entre ambos para asegurar la
elaboración de una estrategia de evaluación de impacto de la más alta calidad.
El modelo de externalización
Para los encargados del programa, siempre atareados gestionando operacio-
nes complejas, a menudo es atractivo contar con un equipo externo encargado
de diseñar e implementar la evaluación de impacto. Los modelos de externali-
zación pueden adoptar diferentes formas. Los administradores de programa a
veces intentan externalizar el diseño de la evaluación de impacto, así como la
realización de diversas encuestas (normalmente, una encuesta de línea de
base y de seguimiento) con una sola entidad en el marco de un contrato amplio.
En otros casos, los administradores de programa primero externalizan el
diseño y siguen con contratos de diversas fases de la recopilación y del análisis
de datos.
La externalización separa en cierta medida el diseño de la implementa-
ción de la evaluación de impacto, por lo cual una evaluación se puede consi-
derar más independiente. Sin embargo, externalizar totalmente la evaluación
de impacto puede implicar riesgos considerables. Establecer este tipo de
relación contractual puede limitar la colaboración entre los equipos de
implementación y de investigación (o la entidad contratada para llevar a
cabo la evaluación de impacto) del programa.
En algunos casos, se entrega al equipo contratado un conjunto de pará-
metros del programa previamente definidos, con escaso margen para deba-
tir sobre los planes de diseño y de implementación, o sobre el alcance, para
dar forma a la investigación. En otros casos, puede que no estén definidas las
reglas del programa y las modalidades de implementación necesarias para
diseñar una buena evaluación de impacto. En esos casos, el equipo contra-
tado encargado de dicha evaluación tiene una influencia limitada para ase-
gurar que se definan estos elementos.
En otros casos, puede que el programa ya haya sido diseñado o que la
implementación haya comenzado, lo cual puede limitar seriamente las
opciones metodológicas de la evaluación. A menudo se pide al equipo con-
tratado que se ajuste ex post a cambios en la implementación del programa,
sin participar estrechamente ni recibir información durante la implementa-
ción. Estas situaciones pueden conducir a diseños de evaluación subóptimos
o a dificultades durante la implementación, dado que el equipo contratado
puede tener motivaciones diferentes de las de los investigadores y los res-
ponsables de las políticas que han dirigido el diseño de la evaluación.
Por último, la selección y supervisión del equipo contratado puede ser
problemática para la unidad de implementación del programa. Se deben
tener en cuenta atentamente y desde el comienzo las reglas de adquisiciones
para asegurar que la externalización sea eficiente y que no presente conflic-
tos de interés. Ciertas reglas pueden limitar la posibilidad de que un equipo
que ha sido contratado para contribuir al diseño de una evaluación de
impacto pueda más tarde presentar una oferta para ejecutarla.
Para mitigar estos riesgos, normalmente es preferible que el equipo de
políticas públicas ya tenga hecho un diseño de evaluación de impacto, que
incluya una estrategia de identificación, indicadores de resultados clave,
cálculos de potencia iniciales y tamaños aproximados de la muestra. Esto
contribuirá a orientar las adquisiciones y la contratación, dado que dichos
elementos influyen claramente en los presupuestos de la evaluación. El
equipo de políticas públicas también debería establecer mecanismos para
asegurar una supervisión técnica sólida del diseño y de la ejecución de la
evaluación de impacto. Esto podría realizarse a través de un comité de super-
visión o mediante una revisión técnica y científica regular de los productos
de la evaluación. En su conjunto, estas medidas de mitigación señalan que es
probable que el modelo más efectivo no sea totalmente externalizado.
El modelo de alianza
La colaboración entre los equipos de investigación y de políticas públicas no
se basa única ni necesariamente en relaciones contractuales. Se pueden
establecer alianzas mutuamente beneficiosas cuando los investigadores tie-
nen interés en llevar a cabo investigaciones sobre una pregunta de políticas,
y cuando los responsables de políticas y los encargados del programa procu-
ran asegurar que su proyecto cuente con una evaluación de impacto de
buena calidad. Los investigadores tienen incentivos para abordar nuevas
preguntas que se añadirán a la base de evidencia global, y para ampliar el
alcance de la evaluación de impacto y contribuir a que sea más visible. El
equipo de investigación puede movilizar parte del financiamiento para la
evaluación de impacto si los objetivos de los financiadores están estrecha-
mente alineados con el objeto de investigación de la evaluación.
Otro tipo de modelo integrado que está adquiriendo más relevancia,
sobre todo en las instituciones más grandes, como el Banco Mundial y el
Banco Interamericano de Desarrollo (BID), utiliza una capacidad de inves-
tigación de evaluación de impacto interna para apoyar a los equipos de polí-
ticas públicas y del programa.
No obstante, el enfoque de la alianza presenta ciertos riesgos. En deter-
minados momentos, puede que los investigadores procuren incorporar ele-
mentos novedosos en la investigación de la evaluación de impacto que quizá
no estén totalmente alineados con los objetivos inmediatos de las políticas a
nivel local, aunque puedan añadir valor en términos más globales. Por su
parte, los responsables de las políticas y los encargados del programa quizá
no siempre sepan apreciar el rigor científico necesario para emprender eva-
luaciones de impacto rigurosas, y quizá tengan una mayor tolerancia que el
equipo de investigación a los riesgos potenciales de la evaluación de impacto.
Para mitigar esos riesgos, los objetivos del equipo de investigación y de
los equipos de políticas públicas deben estar estrechamente alineados.
Por ejemplo, ambos equipos pueden trabajar juntos en un plan de evalua-
ción exhaustivo, definiendo una estrategia detallada, así como los roles y
responsabilidades de los respectivos equipos (véase el recuadro 12.2).
El plan de evaluación de impacto también es una instancia para resaltar
reglas operativas clave, así como los riesgos operativos potenciales para
implementar la evaluación de impacto.
Un compromiso mutuo con una evaluación de impacto recogido en un
plan de evaluación claro es esencial para que la alianza funcione fluida-
mente, aun en ausencia de una relación contractual. Corresponde a las bue-
nas prácticas que este compromiso mutuo adopte la forma de un acuerdo
por escrito –por ejemplo, bajo la forma de términos de referencia o un
memorando de entendimiento– para establecer los roles, responsabilidades
y productos de la evaluación de impacto. Estos aspectos también se pueden
incluir en el plan de evaluación de impacto.
El modelo plenamente integrado

Algunas evaluaciones de impacto se implementan en un modelo plena-
mente integrado donde los equipos de investigación y de implementación
del programa son el mismo, y son responsables tanto de la investigación
como de las funciones del programa. Los investigadores a veces adoptan
este enfoque en los ensayos de eficacia, donde se prueban nuevas interven-
ciones para la prueba de concepto. En este caso, los investigadores general-
mente prefieren mantener el control de la implementación para asegurar
que el programa se ponga en marcha siguiendo el diseño original lo más
estrechamente posible. Si bien los resultados de estas evaluaciones de
impacto tienen la mayor capacidad para probar las teorías fundamentales y
para establecer si una determinada intervención puede funcionar en cir-
cunstancias ideales, el riesgo de este enfoque es que los resultados pueden
tener una validez externa limitada.
El recuadro 12.3 presenta algunos ejemplos de diferentes modelos que
los equipos de investigación y de políticas públicas pueden utilizar para
colaborar.
Recuadro 12.3: Ejemplos de modelos de equipos de investigación

y de políticas públicas
Externalización de evaluaciones en la de desarrollo tenga un plan integral de moni-
Millenium Challenge Corporation toreo y evaluación, centrándose en las evalua-
La Millenium Challenge Corporation (MCC) ciones independientes y no sesgadas. Esta
es una agencia de asistencia de Estados focalización llevó a la MCC a desarrollar un
Unidos, creada en 2004, con un fuerte énfa- modelo en el cual tanto el diseño como la
sis en la rendición de cuentas y los resulta- implementación de las evaluaciones están
dos. Requiere que cada uno de sus programas totalmente externalizados con investigadores

Recuadro 12.3: Ejemplos de modelos de equipos de investigación y de políticas públicas (continúa)
externos. Durante los primeros años de ope- se concibe, los investigadores afiliados a
raciones de la MCC, en ocasiones la separa- IPA, provenientes de una red global de uni-
ción entre el equipo del programa y los versidades, trabajan con los directores de
investigadores externos contratados para la país en las representaciones relevantes para
evaluación creó problemas. Por ejemplo, en crear un diseño de evaluación y un plan de
Honduras, los investigadores diseñaron un implementación. Los directores de país son
ensayo controlado aleatorio de un programa los encargados de gestionar las relaciones
de capacitación agrícola. Sin embargo, dado entre los socios y emparejar a los principales
que el contrato de implementación se basaba investigadores del equipo de investigación
en el desempeño, el implementador tenía un con los socios del programa en el equipo de
fuerte incentivo para encontrar agricultores políticas públicas para desarrollar una pro-
con un alto desempeño para el programa. Los puesta para una evaluación. Una vez apro-
agricultores elegibles no fueron asignados de bada una propuesta, contratan al personal
forma aleatoria al programa, lo que invalida el de gestión del proyecto para dirigir la recopi-
diseño de evaluación. Con la divulgación de lación de datos en el terreno, todos traba-
las primeras cinco evaluaciones de los progra- jando en la oficina local de IPA. La
mas de capacitación agrícola, la MCC coordinación entre los investigadores y los
reflexionó sobre las experiencias como esta y encargados del programa suele ser estre-
llegó a la conclusión de que la colaboración cha, y en algunos casos las oficinas de IPA
entre los implementadores y los evaluadores también son responsables de implementar
es crucial a lo largo del diseño y de la imple- la intervención que está siendo evaluada.
mentación. La organización adaptó su modelo
para que sea más selectivo al aplicar las eva- Modelos mixtos en el Banco Mundial
luaciones de impacto con el fin de encontrar En la última década, el Banco Mundial ha
un equilibrio entre la rendición de cuentas y el ampliado rápidamente el uso de las evalua-
aprendizaje. ciones de impacto prospectivas para esti-
mar los impactos de algunos de los
La integración en Innovations for Poverty proyectos de desarrollo que financia. Varios
Action grupos –entre ellos Development Impact
En Innovations for Poverty Action (IPA), una Evaluation (DIME), Strategic Impact
organización sin fines de lucro de Estados Evaluation Fund (SIEF) y Gender Innovation
Unidos, los equipos de investigación y de Lab (GIL)– proporcionan financiamiento y
políticas públicas trabajan juntos desde el apoyo técnico a las evaluaciones de impacto.
comienzo del diseño de la evaluación, y a Cuando se implementa un proyecto particu-
menudo desde el momento en que se gesta larmente innovador o donde hay grandes
el programa. El modelo de IPA cuenta con intereses en juego, se definen las activida-
una amplia red de oficinas en el terreno, des de evaluación de impacto, ya sea incor-
muchas de las cuales están en contacto con poradas en el proyecto y gestionadas por los
organismos del gobierno y otros socios. gobiernos contrapartes o como actividades
Desde el momento en que una evaluación independientes manejadas por el Banco

Recuadro 12.3: Ejemplos de modelos de equipos de investigación y de políticas públicas (continúa)
Mundial. Se crea un equipo de evaluación El equipo de evaluación identificó los ámbitos

que consiste en un grupo de investigación, de prioridad de la evaluación de impacto. Se
el cual abarca una combinación de expertos creó un ensayo controlado aleatorio prospec-
técnicos y académicos, y un equipo de polí- tivo. El gobierno elaboró preguntas clave y
ticas públicas, que normalmente incluye a financió la recopilación de datos, en parte con-
los responsables de las políticas públicas, tratada con el École Nationale Supérieure de
los encargados del programa y los jefes de Statistique et d’Économie Appliquée (ENSEA),
equipo operativos del proyecto. y en parte llevado a cabo internamente por un
Por ejemplo, en Costa de Marfil, una inicia- equipo especializado en recopilación de datos.
tiva conjunta del Banco Mundial, JPAL y el El Banco Mundial financiaba las actividades
gobierno evaluó un proyecto de empleo y de supervisión técnica e investigación, y diri-
desarrollo de capacidades para jóvenes. Para gía el equipo de evaluación. JPAL contribuía a
ello, se creó un equipo de evaluación que través de los académicos afiliados. Este
comprendía un equipo de investigación com- modelo ha demostrado ser efectivo para ase-
puesto por un jefe de equipo del Banco gurar el rigor científico y la relevancia global,
Mundial, académicos internacionales y exper- así como la alineación con las prioridades de
tos locales, y un equipo de políticas públicas los responsables de las políticas. Requiere
que incluía a especialistas de la unidad de una gestión rigurosa de las asociaciones y una
implementación del proyecto, el ministerio coordinación efectiva entre las diversas partes
asociado y el personal del Banco Mundial. interesadas en el equipo de evaluación.
Fuentes: Bertrand et al. (2015); IPA (2014); Sturdy, Aquino y Molyneaux (2014).
Elección de un equipo de investigación como socio
Los responsables de las políticas y los encargados del programa también tienen
que decidir con quién asociarse. Las preguntas clave son si el equipo de inves-
tigación –o partes del mismo– puede ser un equipo local, y qué tipo de ayuda
externa se requerirá. La capacidad de investigación varía en gran medida de un
país a otro. A menudo se contrata a las empresas internacionales cuando se
requieren habilidades concretas, y también pueden asociarse con empresas
locales. Las funciones de recopilación de datos generalmente son gestionadas
por estas últimas, debido a su profundo conocimiento del contexto y del
entorno local. También hay una marcada tendencia mundial a asegurar la
plena participación de los investigadores locales en la evaluación de impacto.
A medida que aumenta la capacidad de evaluación, es más habitual que
los gobiernos, las empresas privadas y las instituciones multilaterales imple-
menten evaluaciones de impacto en asociación con equipos de investigación
locales. La participación de los investigadores locales puede aportar un valor
fundamental a la evaluación de impacto gracias a su conocimiento
del contexto local. En algunos países, la autorización de la investigación se
concede solo a los equipos que incluyen a investigadores locales. En general,
el administrador de la evaluación es el que evalúa la capacidad local y deter-
mina quién será responsable de qué aspectos del trabajo de evaluación. Las
redes académicas internacionales de evaluación de impacto (como JPAL o
IPA), las empresas privadas de investigación o grupos de evaluación de
impacto de instituciones internacionales (como DIME y SIEF en el Banco
Mundial; o SPD o RES en el BID) pueden ayudar a los equipos de políticas
públicas a tomar contacto con investigadores internacionales que tengan los
conocimientos técnicos expertos para colaborar en la evaluación de impacto.1
Otra pregunta es si trabajar con una empresa privada o con un organismo
público. Las empresas privadas o los institutos de investigación pueden ser
más fiables para proporcionar resultados de manera oportuna pero, una vez
que se ha firmado un contrato, las empresas privadas a menudo están menos
dispuestas a incorporar en la evaluación elementos que podrán encarecerla.
El equipo de investigación también puede trabajar con instituciones de inves-
tigación y universidades, cuya reputación y conocimientos técnicos expertos
garantizan que las partes interesadas aceptarán los resultados de la evalua-
ción. Sin embargo, en ocasiones esas instituciones carecen de la experiencia
operativa o de la capacidad para ejecutar ciertos aspectos de la evaluación,
como la recopilación de datos. Por lo tanto, puede que sea necesario subcon-
tratar algunos aspectos con otro socio. El desarrollo de capacidades en el sec-
tor público también puede ser un objetivo y se puede incluir como parte de
los términos de referencia de la evaluación de impacto. Cualquiera sea la
combinación de contrapartes a la que finalmente se llegue, será esencial efec-
tuar un análisis sólido de las actividades de evaluación de los colaboradores
potenciales en el pasado para tomar una decisión bien fundamentada.
Particularmente, cuando se trabaja con un organismo público con múlti-
ples responsabilidades, la capacidad y disponibilidad de un equipo de inves-
tigación interno para emprender las actividades de evaluación de impacto
tienen que ser estimadas a la luz de otras actividades por las que deben ren-
dir cuentas. Es importante tener conciencia de la carga de trabajo para valo-
rar no solo cómo influirá en la calidad de la evaluación que se lleve a cabo,
sino también en el costo de oportunidad de la evaluación con respecto a
otras iniciativas de las cuales es responsable el organismo público.
Cómo programar una evaluación en el tiempo
En la primera parte de este volumen se analizaron las ventajas de las evalua-

ciones prospectivas, diseñadas durante la elaboración del programa. Una
planificación previa permite una elección más amplia para generar grupos
de comparación, facilita la recopilación de datos de línea de base y ayuda a
las partes interesadas a alcanzar un consenso a propósito de los objetivos del
programa y de las preguntas de interés.
Aunque es importante planificar las evaluaciones de forma temprana en
la etapa de diseño del proyecto, debería programarse su ejecución para eva-
luar el programa una vez que alcance la madurez para ser estable. Los pro-
yectos piloto o las reformas incipientes suelen sufrir revisiones, tanto en
términos de su contenido como con respecto a cuándo, dónde y por quién
serán implementados. Los proveedores del programa necesitarán tiempo
para aprender y aplicar de manera consistente las nuevas reglas operativas.
Dado que las evaluaciones requieren reglas operativas del programa que
sean claras para generar contrafactuales adecuados, es importante ejecutar-
las cuando los programas estén bien establecidos.
Otro aspecto clave de la programación en el tiempo es cuánto tiempo se
requiere antes de que los resultados se puedan medir. El equilibrio adecuado
depende en gran parte del contexto: “Si evaluamos demasiado temprano,
existe el riesgo de encontrar un impacto parcial o nulo; si evaluamos dema-
siado tarde, existe el riesgo de que el programa pierda el apoyo de los donan-
tes y del público o de que se amplíe un programa mal diseñado” (King y
Behrman, 2009:56).2 Para determinar cuándo recopilar los datos de segui-
miento, debe tenerse en cuenta una gama de factores que se describen a
continuación.
El ciclo del programa, que incluye la duración del programa, el tiempo de
implementación y los retrasos potenciales. La evaluación de impacto debe
ajustarse al ciclo de implementación del programa; la evaluación no puede
impulsar el programa que se evalúa. Por su propia naturaleza, las evaluacio-
nes están sujetas a los plazos del programa y deben alinearse con su dura-
ción prevista. También deben adaptarse a los posibles desfases en la
implementación cuando los programas tardan en asignar beneficios o se
retrasan debido a factores externos.3 En general, a pesar de que la programa-
ción en el tiempo de la evaluación debería incluirse en el proyecto desde el
comienzo, los evaluadores deberían estar dispuestos a ser flexibles e intro-
ducir modificaciones a medida que se ejecuta el proyecto. Además, deberían
adoptarse provisiones para dar seguimiento a las intervenciones, utilizando
un sistema de monitoreo de modo que el trabajo de evaluación se funda-
mente en el progreso real de la intervención.
El tiempo previsto necesario para que el programa influya en los resultados,
así como la naturaleza de los resultados de interés. La programación de la reco-
pilación de los datos de seguimiento debe tener en cuenta cuánto tiempo se
requiere después de que se ejecute el programa para que los resultados se
manifiesten. La cadena de resultados del programa ayuda a identificar los
indicadores de resultados y el momento adecuado para medirlos. Algunos
programas (como los de apoyo al ingreso) procuran proporcionar beneficios
a corto plazo, mientras que otros (como los de educación básica) procuran
tener objetivos a más largo plazo. Además, por su propia naturaleza, ciertos
resultados tardan más en manifestarse (como los cambios en la esperanza de
vida o la fertilidad a partir de una reforma del sistema de salud) que otros
(como los ingresos provenientes de un programa de capacitación).
Por ejemplo, en la evaluación del Fondo de Inversión Social de Bolivia,
que contaba con datos de línea de base recopilados en 1993, los datos de
seguimiento no fueron recopilados hasta 1998 debido al tiempo que se
requería para llevar a cabo las intervenciones (proyectos de agua y sanea-
miento, centros de salud y escuelas) y para que se manifestaran los efectos
en la salud y la educación de la población beneficiaria (Newman et al.,
2002). Fue preciso un plazo similar para la evaluación de un proyecto de
educación primaria en Pakistán, que utilizó un diseño experimental con
encuestas de línea de base y de seguimiento para estimar el impacto de las
escuelas comunitarias en los resultados de los alumnos, lo que incluía los
logros académicos (King, Orazem y Paterno, 2008). Sin embargo, los datos
de seguimiento suelen recopilarse antes de lo que sería recomendable,
debido a las presiones para obtener resultados de manera oportuna o por
limitaciones del presupuesto y del ciclo del proyecto (McEwan, 2014).
Por lo tanto, la recopilación de datos de seguimiento dependerá del pro-
grama bajo estudio, así como también de los indicadores de resultados de
interés.
Los datos de seguimiento se pueden recopilar más de una vez, de modo
que se puedan tener en cuenta y se puedan contrastar los resultados de corto
y mediano plazo. Los datos de seguimiento recogidos durante la implemen-
tación del programa quizá no capturen el pleno impacto del mismo si los
indicadores se miden demasiado temprano. Aun así, es muy útil documentar
los impactos de corto plazo, que también pueden proporcionar información
acerca de los resultados previstos a más largo plazo, útiles para producir
resultados tempranos de la evaluación de impacto, que pueden estimular el
diálogo entre los equipos de investigación y de políticas públicas, y mante-
ner el contacto con la muestra de evaluación de modo de reducir el desgaste
de la muestra a lo largo del tiempo.
Las encuestas de seguimiento que miden los resultados de largo plazo
después de implementar el programa a menudo producen la evidencia más
convincente en lo que se refiere a la efectividad del programa. Por ejemplo,
los resultados positivos de las evaluaciones de impacto a largo plazo de los
programas de desarrollo infantil temprano (DIT) en Estados Unidos (Currie,
2001; Currie y Thomas, 1995, 2000) y Jamaica (Grantham-McGregor et al.,
1994; Gertler et al., 2014) han influido en favor de invertir en intervenciones
en la primera infancia.
En ocasiones, los impactos de largo plazo son objetivos explícitos del
programa, pero puede que incluso un diseño sólido de evaluación de impacto
no pueda resistir al paso del tiempo. Por ejemplo, las unidades del grupo de
control pueden comenzar a verse favorecidas por los efectos de derrame de
los beneficiarios del programa.
Los equipos pueden recolectar datos de seguimiento más de una vez, de
modo que se pueden considerar y contrastar los resultados de corto, mediano
y largo plazo.
Ciclos de elaboración de políticas. La programación de una evaluación
también debe tener en cuenta cuándo se requiere cierta información para
fundamentar las decisiones de políticas y debe sincronizar las actividades
de evaluación y de recopilación de datos con momentos clave en la toma de
decisiones. La producción de resultados debería programarse para funda-
mentar los presupuestos, la ampliación del programa u otras decisiones de
políticas.
Cómo elaborar un presupuesto para una

evaluación
El presupuesto constituye uno de los últimos pasos para hacer operativo

el diseño de la evaluación. En esta sección, se analizan algunos datos
sobre el costo de una evaluación de impacto, se debate cómo elaborar un
presupuesto para una evaluación y se sugieren algunas opciones de
financiamiento.
Análisis de los datos de costos
Los cuadros 12.1 y 12.2 proporcionan referencias útiles sobre los costos aso-
ciados con la realización de evaluaciones de impacto rigurosas. Contienen
datos sobre los costos de las evaluaciones de impacto de diversos proyectos
realizados con el apoyo del Fondo Estratégico para la Evaluación de Impacto
(SIEF, por sus siglas en inglés), administrado por el Banco Mundial. La
muestra del cuadro 12.1 proviene de un estudio exhaustivo de programas
que reciben el respaldo de los grupos de investigación sobre DIT y educa-
ción en SIEF. La muestra del cuadro 12.2 se seleccionó en función de la dis-
ponibilidad de estadísticas actuales sobre presupuestos del conjunto de
evaluaciones de impacto financiadas por SIEF.4
Los costos directos de las actividades de la evaluación analizados en las
muestras que se presentan en los cuadros 12.1 y 12.2 oscilan entre US$130.000
y US$2,78 millones, con un costo promedio cercano a US$1 millón. Aunque
estos costos varían en gran medida y pueden parecer elevados en términos
Cuadro 12.1 Costo de las evaluaciones de impacto de una selección de proyectos con apoyo del
Banco Mundial
Costos de la
Costo total EI como
de la porcentaje
evaluación de Costo total del del total de
impacto programaa los costos del
Evaluación de impacto (EI) País (US$) (US$) programa
Proyecto de redes de protección Burkina Faso 750.000 38.800.000 1,9
Desarrollo de destrezas y empleo China 220.000 50.000.000 0,4
para migrantes
Proyecto de protección social Colombia 130.000 86.400.000 0,2
Plan piloto de nutrición integrada/ Yibuti 480.000 5.000.000 8,8
sistema de seguridad social
asistencial
Programa de inversión en sectores República 600.000 19.400.000 3,1
sociales Dominicana
Incentivos para los maestros Guinea 2.055.000 39.670.000 4,9
basados en el desempeño
Protección social Jamaica 800.000 40.000.000 2,0

Tratamiento de la desnutrición Madagascar 651.000 10.000.000 6,1
crónica
Centros de cuidado del niño Malawi 955.000 1.500.000 38,9

basados en la comunidad (piloto)
Información y transferencias Nepal 984.000 40.000.000 2,4
monetarias no condicionadas
Asistencia técnica en redes de Pakistán 2.000.000 60.000.000 3,3

protección social
Proyecto de protección social Panamá 1.000.000 24.000.000 4,2
Primer proyecto de niveles de vida Ruanda 1.000.000 11.000.000 9,1
comunitarios
Intervenciones en información Tanzania 712.000 416.000.000 0,2
para la rendición de cuentas e
incentivos para los profesores
Intervenciones en el tamaño de la Uganda 639.000 100.000.000 0,6
clase y calidad de los profesores
Fondo social para el desarrollo 3 Rep. Yemen 2.000.000 15.000.000 13,3

Promedio 936.000 59.798.000 6,2
Fuente: Una muestra de evaluaciones de impacto financiadas por los grupos de investigación sobre desarrollo infantil temprano (DIT)
y educación del Fondo Estratégico para la Evaluación de Impacto del Banco Mundial (SIEF).
EI = evaluación de impacto.
a. Los costos totales del programa no incluyen los costos asociados con la evaluación de impacto.

242
Cuadro 12.2 Costos desagregados de una selección de proyectos con apoyo del Banco Mundial
Costo Recopilación Personal y Divulgación

Evaluación de totala Tamaño de de datos consultores Viajes y talleres Otros
impacto País (US$) la muestra (porcentaje)b (porcentaje)b (porcentaje)b (porcentaje)b (porcentaje)b
Construcción de Bangladesh 655.000 2.574 27 48 5 0 20
capacidad de los hogares
padres para colaborar
en la nutrición y la
salud infantil
Cerrando la brecha Bulgaria 702.000 6.000 74 21 4 1 0
del aprendizaje hogares
temprano entre los
niños romaníes
Componente de DIT y Burkina Faso 750.000 4.725 55 20 3 1 21
nutrición del proyecto hogares
de redes de protección
de Burkina Faso
Pago a profesores Chad 1.680.000 2978 52 14 12 18 4
comunitarios escuelas
Intervención en DIT Colombia 573.000 1.429 54 36 2 2 7
basada en el hogar personas
Plan piloto de Yibuti 480.000 1.150 75 0 0 6 18
nutrición/red de personas
protección social
integrada
Supervisión e Ghana 498.000 480 51 46 3 0 0
incentivos para un escuelas
mayor aprendizaje: el
Programa de alto
desempeño TCAI

Cuadro 12.2 Costos desagregados de una selección de proyectos con apoyo del Banco Mundial (continúa)

Incentivos para los Guinea 2.055.000 420 82 9 3 1 4
maestros basados en escuelas
el desempeño
Apoyo en la prestación Haití 436.000 200 40 31 17 3 9
de servicios educativos escuelas
Motivación no India 448.000 360 83 5 11 1 0
financiera extrínseca escuelas
e intrínseca de los
profesores
Estimulación temprana India 696.000 2.250 49 43 5 3 0
del niño y rendición de personas
cuentas sociales en la
estrategia de desarro-
llo infantil integrada en
India
Grupos de autoayuda India 844.000 3.000 52 39 5 1 2
de mujeres para hogares
mejorar la salud, la
nutrición, el sanea-
miento y la seguridad
alimentaria
DIT para los pobres India 1.718.000 2.588 46 53 1 1 0
hogares

243
244

Nutrición durante la Indonesia 2.490.000 6.743 94 0 2 4 0
primera infancia, personas
disponibilidad de
proveedores de
servicios de salud y
resultados vitales
como jóvenes adultos
Para abordar la Madagascar 651.000 5.000 0 0 66 2 32
desnutrición crónica personas
Habilidades de los Mali 949.000 3.600 58 22 4 5 11
padres, nutrición y personas
prevención integrada
de la malaria
Aumento de la México 268.000 230 70 26 3 2 0
rendición de cuentas escuelas
en educación a través
de asistentes
pedagógicos basados
en la comunidad
Acceso a un modelo México 420.000 172 45 48 5 1 1
de escolarización personas
integral privada
Evaluaciones de Mozambique 1.762.000 110 78 5 4 8 6
impacto aleatorias de escuelas
diversas intervenciones
tempranas en
destrezas en
alfabetización y lectura


DIT integrado y Mozambique 1.908.000 6.700 74 8 5 7 7
nutrición hogares
Plan piloto de seguro Nepal 485.000 6.300 61 33 3 4 0
de salud hogares
Información y Nepal 984.000 3.000 57 23 9 1 10
transferencias no personas
condicionadas en los
resultados nutricionales
Transferencias Níger 984.000 4.332 67 18 7 1 7
monetarias, hogares
capacitación de los
padres y DIT holístico
Entendiendo la Nigeria 1.052.000 120 59 25 8 3 6
dinámica de la escuelas
información para la
rendición de cuentas
Programa de Nigeria 2.775.000 5.000 76 13 6 4 2
reinversión de hogares
subsidios y de
empoderamiento e
iniciativa de salud
materno-infantil
Participación de la Pakistán 845.000 287 59 15 6 3 18
comunidad en el escuelas
comité escolar

245
246

Mejora de las Pakistán 2.124.000 2.000 26 25 5 2 42
escuelas privadas escuelas
para los pobres de
zonas rurales
Selección e impactos Ruanda 797.000 300 79 7 3 1 11
motivacionales de escuelas
contratos basados
en el desempeño
de los maestros de
escuela primaria
Campaña de Sudáfrica 647.000 200 67 24 2 3 4
información en escuelas
escuelas primarias
Probando información Tanzania 712.000 420 86 6 7 2 0
en la rendición de escuelas
cuentas e
intervenciones de
incentivos para los
maestros
Diseño de programas Tanzania 889.000 420 85 11 2 2 0
de incentivos efectivos escuelas
para los maestros
Programa para mujeres Tanzania 1.242.000 3.600 90 7 2 1 0
con alto riesgo de personas
infección de VIH


Intervenciones Uganda 639.000 200 82 9 7 2 0
relativas al tamaño de escuelas
la clase y la calidad
de los maestros
Contrastando la Uganda 737.000 280 77 18 3 3 0
eficiencia de la escuelas
prestación de
servicios educativos
en los sectores
público y privado
Promedio 1.026.000 63 21 7 3 7
Fuente: Una muestra de evaluaciones de impacto financiada por el Fondo Estratégico para la Evaluación de Impacto (SIEF) del Banco Mundial.
a. Los costos estimados no siempre capturan todos los costos de la evaluación, lo que incluye el tiempo del equipo de políticas públicas.
b. Es el porcentaje de los costos totales de la evaluación por categoría. Este costo no incluye los costos del personal local del proyecto, que a menudo participaba intensamente
en el diseño y la supervisión de la evaluación, dado que los datos precisos de estos costos no se registran de manera regular.
247
Concepto clave absolutos, las evaluaciones de impacto suelen constituir solo un pequeño
Las evaluaciones de porcentaje de los presupuestos generales del programa. Además, el costo de
impacto suelen llevar a cabo una evaluación de impacto debe compararse con los costos de
constituir solo un oportunidad de no efectuar una evaluación rigurosa y, por lo tanto, de imple-
pequeño porcentaje de
los presupuestos
mentar potencialmente un programa inefectivo. Las evaluaciones permiten
generales del a los investigadores y a los responsables de las políticas identificar qué pro-
programa. Además, el gramas o características del programa funcionan, cuáles no funcionan y qué
costo de llevar a cabo estrategias pueden ser las más efectivas y eficientes para alcanzar los objeti-
una evaluación de vos del programa. En este sentido, los recursos necesarios para implementar
impacto debe
una evaluación de impacto constituyen una inversión relativamente
compararse con los
costos de oportunidad pequeña pero importante.
de no efectuar una El cuadro 12.2 desagrega los costos de la muestra de evaluaciones de
evaluación rigurosa y, impacto financiadas por el SIEF. Los costos totales de una evaluación inclu-
por lo tanto, de yen el tiempo del personal del Banco Mundial, los consultores nacionales e
implementar internacionales, los viajes, la recopilación de datos y las actividades de
potencialmente un
programa inefectivo.
divulgación.5 En estas evaluaciones, como en casi todas en las que no se pue-
den usar los datos existentes, el costo más importante corresponde a la reco-
pilación de nuevos datos, que equivale, en promedio, al 63% del costo de la
evaluación, como se muestra en el cuadro.
Estas cifras reflejan diferentes tamaños y tipos de evaluaciones. El costo
relativo de la evaluación de un programa piloto suele ser superior al costo
relativo de la evaluación de un programa a nivel nacional o universal.
Además, algunas evaluaciones solo requieren una encuesta de seguimiento
o pueden usar las fuentes de datos existentes, mientras que otras necesitan
llevar a cabo múltiples rondas de recopilación de datos. Los costos de
recopilación de datos dependen sobre todo de las capacidades del equipo
local, de los recursos disponibles y de la duración del trabajo de campo.
Para saber más sobre cómo determinar los costos de una encuesta en un
contexto particular, se recomienda al equipo de evaluación que primero
entre en contacto con el organismo nacional de estadística y que busque
información entre los equipos que hayan llevado a cabo un trabajo de
encuestas en el país.
Elaboración de un presupuesto para una evaluación de impacto
Se necesitan muchos recursos para implementar una evaluación de

impacto rigurosa, sobre todo cuando se trata de recopilar datos primarios.
Las partidas presupuestarias incluyen los honorarios para al menos un
investigador principal, un asistente de investigación, un coordinador del
trabajo de campo, un experto en muestreo y los encuestadores. También
se debe considerar el tiempo del personal del proyecto para proporcionar
orientación y apoyo a lo largo de la evaluación. Estos recursos humanos
pueden consistir en investigadores y expertos técnicos de organizaciones
internacionales, consultores internacionales o locales y personal del pro-
grama local. Los costos de viaje y viáticos también se deben presupuestar.
También se deben considerar en la planificación los recursos para la
divulgación, con frecuencia en forma de talleres, informes y documentos
académicos.
Como se ha señalado, el costo más importante suele ser el relacionado
con la recopilación de datos (que incluye la creación y la prueba piloto de la
encuesta), los materiales y el equipo para recoger los datos, la capacitación
de los encuestadores, sus salarios, los vehículos y el combustible, y las ope-
raciones de digitación de datos. Calcular todos estos costos requiere consi-
derar algunos supuestos, por ejemplo, acerca del tiempo que llevará
completar el cuestionario y de la duración de los viajes entre los
emplazamientos.
Los costos de una evaluación de impacto pueden repartirse a lo largo de
varios ejercicios fiscales. El ejemplo de presupuesto del cuadro 12.3 muestra
cómo se pueden desagregar los gastos en cada fase de una evaluación por
ejercicio fiscal, con fines de contabilidad y de informes. Una vez más, es pro-
bable que las demandas presupuestarias sean mayores durante los años en
que se recopilan los datos.
Opciones para financiar las evaluaciones
El financiamiento de una evaluación puede provenir de numerosas

fuentes, entre ellas: recursos para el proyecto, presupuestos directos
del programa, ayudas a la investigación o financiamiento de los donan-
tes. A menudo, los equipos de evaluación procuran tener una combina-
ción de fuentes para generar los fondos necesarios. A pesar de que el
financiamiento para las evaluaciones solía provenir sobre todo de pre-
supuestos para la investigación, un énfasis creciente en la elaboración
de políticas basadas en la evidencia ha aumentado el financiamiento
proveniente de otras fuentes. En los casos en que es probable que una
evaluación zanje una brecha de conocimientos considerable de interés
para la comunidad de desarrollo en términos más amplios, y donde se
pueda aplicar una evaluación creíble y robusta, se debería instar a los
responsables de las políticas a buscar financiamiento externo, debido al
bien público que los resultados de la evaluación proporcionarán. Las
fuentes de financiamiento son el gobierno, los bancos de desarrollo, las
organizaciones multilaterales, los organismos de las Naciones Unidas,
las fundaciones, las instituciones filantrópicas, y las organizaciones de
investigación y evaluación, como la Iniciativa Internacional para la
Evaluación de Impacto.
250
Cuadro 12.3 Ejemplo de presupuesto para una evaluación de impacto
Etapa de datos de
Etapa del diseño línea de base
Unidad Costo por Número de Costo Unidad Costo por Número de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
A. Salarios del personal Semanas 7.500 2 15.000 Semanas 7.500 2 15.000
B. Honorarios de los consultores 14.250 41.900
Consultor internacional (1) Días 450 15 6.750 Días 450 0 0
Consultor internacional (2) Días 350 10 3.500 Días 350 10 3.500
Investigador asistente/Coordinador Días 280 0 0 Días 280 130 36.400
de trabajo de campo
Experto estadístico Días 400 10 4.000 Días 400 5 2.000
C. Viajes y dietas
Personal: Vuelos internacionales Viajes 3.350 1 3.350 Viajes 3.350 1 3.350
Personal: Hotel y viáticos Días 150 5 750 Días 150 5 750
Personal: Transporte terrestre local Días 10 5 50 Días 10 5 50
Consultores internacionales: Vuelos Viajes 3.500 2 7.000 Viajes 3.500 2 7.000
internacionales
Consultores internacionales: Hotel Días 150 20 3.000 Días 150 20 3.000
y viáticos
Consultores internacionales: Días 10 5 50 Días 10 5 50
Transporte terrestre local
Coordinador de trabajo de campo: Viajes 0 0 Viajes 1.350 1 1.350
Vuelos internacionales
Coordinador de trabajo de campo: Días 0 0 Días 150 3 150
Hotel y viáticos

Cuadro 12.3 Ejemplo de presupuesto para una evaluación de impacto (continúa)
Etapa de datos de
Etapa del diseño línea de base
Unidad Costo por Número de Costo Unidad Costo por Número de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
Coordinador de trabajo de campo: Días 0 0 Días 10 3 30
D. Recopilación de datos 126.000
Tipo de datos 1: Consentimiento Escuela 120 100 12.000
Tipo de datos 2: Resultados Niño/a 14 3.000 42.000
educativos
Tipo de datos 3: Resultados de Niño/a 24 3.000 72.000
salud
E. Análisis y divulgación de datos
Taller(es)
Divulgación/informes
Costos totales por etapa Etapa de diseño 43.450 Etapa de línea de base 198.630

251
252
Datos de seguimiento Datos de seguimiento

Primera etapa Segunda etapa
Costo por Costos Costo Costo
unidad Número de totales unitario Número de total
Unidad (US$) unidades (US$) Unidad (US$) unidades (US$)
A. Salarios del personal Semanas 7.500 22222 15.000 Semanas 7.500 22 15.000
B. Honorarios de los consultores 43.750 38.000
Investigador asistente/Coordinador Días 280 100 28.000 Días 280 100 28.000
de trabajo de campo
Experto estadístico Días 400 5 2.000 Días 400 5 2.000
C. Viajes y dietas
Personal: Vuelos internacionales Viajes 3.350 1 3.350 Viajes 3.350 2 6.700
Personal: Hotel y viáticos Días 150 10 1.500 Días 150 10 1.500
Personal: Transporte terrestre local Días 10 5 50 Días 10 5 50
Consultores internacionales: Vuelos Viajes 3.500 2 7000 Viajes 3.500 2 7000
internacionales
Consultores internacionales: Hotel Días 150 20 3.000 Días 150 20 3.000
y viáticos
Consultores internacionales: Días 10 5 50 Días 10 5 50

Datos de seguimiento Datos de seguimiento

Primera etapa Segunda etapa
Costo por Costos Costo Costo
unidad Número de totales unitario Número de total
Unidad (US$) unidades (US$) Unidad (US$) unidades (US$)
Coordinador de trabajo de campo: Viajes 1.350 1 1.350 Viajes 1.350 1 1.350
Vuelos internacionales
Coordinador de trabajo de campo: Días 150 3 450 Días 150 3 450
Hotel y viáticos
Coordinador de trabajo de campo: Días 10 3 30 Días 10 3 30
D. Recopilación de datos 126.000 126.000

Tipo de datos 1: Consentimiento Escuela 120 100 12.000 Escuela 120 100 12.000
Tipo de datos 2: Resultados Niño/a 14 3.000 42.000 Niño/a 14 3.000 42.000

educativos
Tipo de datos 3: Resultados de Niño/a 24 3.000 72.000 Niño/a 24 3.000 72.000
salud
E. Análisis y divulgación de datos 55.000
Taller(es) 20.000 2 40.000

Divulgación/informes 5.000 3 15.000
Costos totales por etapa Seguimiento 201.530 Seguimiento (etapa II) 254.130
(etapa I)
Total costos evaluación 697.740

253
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos de más
• Para consultar diversos instrumentos útiles en la planificación e implementación
de una evaluación, véase el portal de evaluación del BID (http://www.iadb.org
/portalevaluacion), que incluye:
➢ Sección de diseño: Cartas Gantt para ayudar en la programación de las
actividades de evaluación de impacto, un instrumento de plantilla de
presupuesto para estimar los costos de una evaluación de impacto, y una
lista de verificación de actividades centrales que se realizarán.
➢ Sección de implementación: Términos de referencia de la muestra para los
investigadores principales, empresas de recopilación de datos y apoyo y
supervisión técnica.
• Para directrices e instrumentos útiles en la planificación e implementación de
una evaluación, véase el World Bank Impact Evaluation Toolkit (Vermeersch,
Rothenbühler y Sturdy, 2012), que incluye lo siguiente:
➢ Módulo 2: Armado del equipo: términos de referencia de la muestra para
los investigadores principales, coordinadores de la evaluación, analistas de
datos, investigadores locales, expertos en cálculos de potencia, expertos en
calidad de datos, trabajadores locales y otros.
➢ Manuales de campo y programas de capacitación para hogares y centros de
salud.
➢ Módulo 3: Diseño: directrices sobre cómo alinear el calendario, la composi-
ción del equipo y el presupuesto de su evaluación de impacto, y una plantilla
de presupuesto.
➢ Módulo 4: Preparación de la recopilación de datos: información sobre la
programación de actividades de recopilación de datos y logro de acuerdos
con los interesados sobre la propiedad de los datos; Carta Gantt, presupues-
to de recopilación de datos de la muestra.
Notas
1. El acrónimo JPAL corresponde al Abdul Latif Jameel Poverty Action Lab; SPD
es la Oficina de Planificación Estratégica y Efectividad en el Desarrollo, y RES es
el Departamento de Investigación del BID.
2. Véase King y Behrman (2009) para un análisis detallado de las cuestiones de
programación con respecto a la evaluación de programas sociales.
3. “Hay diversos motivos por los que la implementación no es ni inmediata
ni perfecta, por qué la duración de la exposición al tratamiento difiere
no solo entre diferentes ámbitos del programa sino también en los diferen-
tes beneficiarios últimos, y por qué las diferentes exposiciones pueden
generar diferentes estimaciones del impacto de un programa” (King y
Behrman, 2009).

4. Si bien los cuadros 12.1 y 12.2 proporcionan referencias útiles, no son representa-
tivos de todas las evaluaciones emprendidas por el programa SIEF o el Banco
Mundial.
5. En este caso, el costo se calcula como porcentaje de la parte del proyecto
financiado por el Banco Mundial.
Bertrand, M., B. Crépon, A. Marguerie y P. Premand. 2015. “Cote d’Ivoire Youth
Employment and Productivity Impact Evaluation.” AEA RCT Registry (9 de
octubre). Disponible en https://www.socialscienceregistry.org/trials/763
/history/5538.
Currie, J. 2001. “Early Childhood Education Programs.” Journal of Economic
Perspectives 15 (2): 213–38.
Currie, J. y D. Thomas. 1995. “Does Head Start Make a Difference?” American
———. 2000. “School Quality and the Longer-Term Effects of Head Start.” Journal of
Economic Resources 35 (4): 755–74.
Gertler, P., J. Heckman, R. Pinto, A. Zanolini, C. Vermeersch, S. Walker, S. M. Chang
y S. Grantham-McGregor. 2014. “Labor Market Returns to an Early Childhood
Stimulation Intervention in Jamaica.” Science 344 (6187): 998–1001.
Grantham-McGregor, S., C. Powell, S. Walker y J. Himes. 1994. “The Long-Term
Follow-up of Severely Malnourished Children Who Participated in an
Intervention Program.” Child Development 65: 428–93.
IPA (Innovations for Poverty Action). 2014. “Researcher Guidelines: Working with
IPA.” (1 de septiembre.) Disponible en http://www.poverty-action.org/sites
/default/files/researcher_guidelines_version_2.0.pdf.
King, E. M. y J. R. Behrman. 2009. “Timing and Duration of Exposure in
Evaluations of Social Programs.” World Bank Research Observer 24 (1): 55–82.
King, E. M., P. F. Orazem y E. M. Paterno. 2008. “Promotion with and without Learning:
Effects on Student Enrollment and Dropout Behavior.” Serie de documentos de
trabajo de investigación de políticas Núm. 4722. Washington, D.C.: Banco Mundial.
McEwan, P. J. 2014. “Improving Learning in Primary Schools of Developing
Countries: A Meta-Analysis of Randomized Experiments.” Review of
Educational Research. (doi:10.3102/0034654314553127.)
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. “An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund.” World Bank Economic Review 16 (2): 241–74.
Sturdy, J., S. Aquino y J. Molyneaux. 2014. “Learning from Evaluation at the
Millennium Challenge Corporation.” Journal of Development Effectiveness
6 (4): 436–50.
Vermeersch, C., E. Rothenbühler y J. Sturdy. 2012. Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child Health.
Washington, D.C.: Banco Mundial. Disponible en http://www.worldbank.org
CAPÍTULO 13
La ética y la ciencia en la
La gestión de evaluaciones éticas y creíbles
La ética de la evaluación se centra en proteger a los individuos o sujetos

humanos que participan en la evaluación, mientras que la transparencia de
los métodos contribuye a asegurar que los resultados de la evaluación no
estén sesgados, sean fiables y creíbles, y aporten a un acervo más amplio de
conocimientos.
Los responsables de las políticas y los investigadores tienen un interés
conjunto y una responsabilidad compartida en asegurar que la evaluación
sea ética y que sus resultados no estén sesgados, sean fiables y creíbles. Lo
contrario puede significar la invalidación de la evaluación y podría generar
problemas más allá del alcance mismo de esta. Imagínese una evaluación de
impacto que pone en peligro a un grupo de personas al divulgar datos perso-
nales, o una evaluación que utiliza un mecanismo de asignación de pro-
grama que es injusto porque excluye a las familias más necesitadas. O
piénsese en una evaluación que demuestra que un programa es sumamente
exitoso pero no divulga ningún dato para apoyar esa afirmación. Cualquiera
de estos casos podría producir indignación pública: quejas en los medios de
comunicación, en los tribunales o en otras instancias, y sería fuente de
malestar para los responsables de las políticas públicas y los investigadores.
La crítica de la evaluación podría llegar hasta el programa mismo e incluso
257
atentar contra su implementación. La fiabilidad y la completitud de los
resultados de evaluación también son muy importantes: cuando las evalua-
ciones producen estimaciones sesgadas o parciales del impacto de los pro-
gramas, los responsables de las políticas se verán limitados en su capacidad
de adoptar una decisión plenamente fundamentada.
Aunque las evaluaciones de impacto estén vinculadas a programas y pro-
yectos públicos, también constituyen una labor de investigación y, por lo
tanto, se llevan a cabo en el dominio de las ciencias sociales. De la misma
manera, el equipo evaluador debe respetar una serie de principios y reglas
de las ciencias sociales para garantizar que la evaluación sea ética y transpa-
rente en sus métodos y resultados.
La ética de llevar a cabo evaluaciones de

impacto
Cuando una evaluación de impacto asigna los sujetos a grupos de trata-

miento y comparación y recopila datos de análisis acerca de ellos, el equipo
de evaluación asume la responsabilidad de minimizar en la mayor medida
posible cualquier riesgo de que los individuos resulten perjudicados, así
como de asegurar que los individuos que participen en la evaluación lo
hagan a través de un consentimiento informado.
La ética en la asignación de grupos de tratamiento y

comparación
Como sucede con el juramento hipocrático de la profesión médica, un primer

principio de la ética de la evaluación debería ser no causar perjuicios. La prin-
cipal preocupación es que la intervención del programa que se evalúa pueda
damnificar a los individuos, ya sea directa o indirectamente. Por ejemplo, un
proyecto de rehabilitación de carreteras podría desplazar a los hogares que
residen a lo largo de determinadas partes de una carretera. Un proyecto de
alfabetización que no tiene en cuenta el uso de las lenguas nativas podría vul-
nerar a las comunidades indígenas. Numerosos gobiernos y donantes inter-
nacionales que financian proyectos de desarrollo utilizan un marco de
salvaguardias para evitar y mitigar este tipo de riesgos. Aunque los encarga-
dos del programa tienen la responsabilidad fundamental de aplicar medidas
de salvaguardias en los proyectos, el equipo de evaluación debería estar vigi-
lante para verificar que el proyecto cumpla con estos marcos requeridos.
Existe otra preocupación a propósito del daño que puede surgir de pri-
var a beneficiarios potenciales de una intervención. Un principio funda-
mental es que los grupos no deberían ser excluidos de una intervención que
se sabe que es beneficiosa, únicamente por el propósito de llevar a cabo una Concepto clave
evaluación. Las evaluaciones solo deberían realizarse en casos en que el No se debería excluir a
equipo de evaluación ignore si una intervención es beneficiosa en el con- un grupo de una
intervención que se
texto particular en que se evalúa. Además, si una evaluación demuestra que
sabe que es
un programa es costo-efectivo, los financiadores del mismo –ya sean beneficiosa
gobiernos, donantes u organizaciones no gubernamentales (ONG)– debe- únicamente para los
rían hacer un esfuerzo razonable para ampliar el programa con el fin de fines de una
incluir a los grupos de comparación una vez que haya finalizado la evalua- evaluación.
ción de impacto.
Un principio relacionado que se impulsa en este libro es que las evalua-
ciones no deberían dictar cómo se asignan los programas; al contrario,
deberían ajustarse a las reglas de asignación del programa en la medida en
que estas sean claras e imparciales. La evaluación también puede contri-
buir a (re)definir las reglas cuando estas no existen o cuando no son jus-
tas. Siguiendo este procedimiento, se contribuirá a asegurar que las
preocupaciones éticas no emanen tanto de la propia evaluación de
impacto como de la ética de las reglas utilizadas para elegir a los benefi-
ciarios del programa. Aun así, la asignación de grupos de tratamiento y
comparación puede suscitar inquietudes acerca de la ética de negar los
beneficios del programa a los beneficiarios elegibles. Esto es lo que ocurre
en particular con la asignación aleatoria de los beneficios del programa.
En la segunda parte y en el capítulo 11, se ha puesto de relieve que la asig-
nación aleatoria es un método que se puede aplicar en contextos operati-
vos específicos. Concretamente, el hecho de que la mayoría de los
programas funcionen con recursos financieros y administrativos limita-
dos hace imposible llegar a todos los beneficiarios elegibles al unísono.
Esto tiene que ver con preocupaciones éticas, dado que el programa
mismo debe desarrollar reglas de asignación e imponer algún tipo de
selección, incluso sin la existencia de una evaluación de impacto. Desde
una perspectiva ética, hay buenos argumentos para que todos aquellos
que son igualmente elegibles para participar en un programa tengan igua-
les probabilidades de ser destinatarios del mismo. La asignación aleatoria
cumple este requisito. En otros contextos operativos en los que un pro-
grama se va a desarrollar por fases, la implementación se puede basar en
la selección aleatoria del orden en que los beneficiarios o grupos de bene-
ficiarios igualmente elegibles serán objeto del programa. En dichos casos,
esto dará a cada beneficiario elegible la misma probabilidad de ser el
primero en recibir el programa. Así, los beneficiarios que ingresan poste-
riormente en el programa pueden ser tomados como grupo de compara-
ción para los primeros beneficiarios, generándose de este modo un sólido
diseño de evaluación y un método transparente y equitativo para asignar
los recursos escasos.
La ética y la ciencia en la evaluación de impacto 259
Por último, también puede manifestarse una inquietud ética a propósito
de no llevar a cabo una evaluación cuando los programas invierten recursos
considerables en intervenciones cuya efectividad se desconoce. En este
contexto, la propia falta de evaluación podría verse como no ética porque
podría perpetuar programas despilfarradores que no benefician a la pobla-
ción, mientras que los fondos podrían ser mejor gastados en intervenciones
más efectivas. La información acerca de la efectividad del programa que
producen las evaluaciones de impacto puede contribuir a una inversión más
ética y efectiva de los recursos públicos.
La protección de sujetos humanos durante la recopilación, el

procesamiento y el almacenamiento de datos
Una segunda instancia en la cual los sujetos podrían verse perjudicados es

durante la recopilación, el procesamiento y el almacenamiento de datos. Los
hogares, los maestros, médicos, administradores y otras personas que res-
ponden a cuestionarios o proporcionan datos a través de otros medios
podrían verse perjudicados si la información que proporcionan se divulga
públicamente sin suficientes salvaguardias para proteger su anonimato. El
perjuicio podría afectar a los propios individuos o a una organización a la
que pertenecen. He aquí unos cuantos ejemplos:
• Mientras se lleva a cabo una encuesta, una mujer comparte información

acerca de sus prácticas de planificación familiar y su marido (que no está
a favor de la planificación familiar) escucha su conversación con el
encuestador.
• La privacidad de los hogares se ve violentada (y su seguridad puesta en
peligro) cuando un individuo consigue utilizar los datos de una encuesta
que fueron publicados en Internet para identificar el ingreso y los activos
de familias específicas.
• Un estudio utiliza encuestadores no calificados para realizar pruebas
biomédicas, como extracciones de sangre.
• Un encuestado solicita que se le elimine de un estudio a medio camino de
la entrevista, pero el encuestador lo insta a acabar de contestar las
preguntas.
• Los datos de la encuesta se emplean para identificar a organizaciones
comunitarias que se oponen a ciertas políticas de los gobiernos, con el fin
de tomar represalias contra ellas.
Frente a riesgos como estos, compete a los investigadores principales y a
otros miembros del equipo de investigación salvaguardar los derechos y el
bienestar de los sujetos humanos que participan en la evaluación de impacto,
de conformidad con el código ético y la legislación nacional adecuada y con
las directrices internacionales.1 La Organización Mundial de la Salud (OMS)
recomienda los siguientes criterios básicos para evaluar los proyectos de
investigación con sujetos humanos:
• Los derechos y el bienestar de los sujetos que participan en la evaluación

de impacto deberían ser protegidos de forma adecuada.
• Los investigadores deberían obtener un consentimiento informado de

los participantes.
• El equilibrio entre riesgo y beneficios potenciales implicados deberían

ser valorados y declarados aceptables por un panel de expertos
independientes.
• Deberían cumplirse todos los requisitos nacionales especiales.
El Informe Belmont “Principios éticos y pautas para la protección de

los sujetos humanos en la investigación” identifica tres preceptos que cons-
tituyen el fundamento de la conducta ética de la investigación con sujetos
humanos:
• El respeto por las personas. ¿Cómo obtendrán los investigadores el con-

sentimiento informado de los sujetos de su investigación?
• Beneficencia. ¿Cómo asegurarán los investigadores que la investigación

(1) no cause perjuicios y (2) maximice los beneficios potenciales y mini-
mice el daño potencial?
• Justicia. ¿Cómo asegurarán los investigadores que los beneficios y cargas

de la investigación sean compartidos de forma imparcial y equitativa?
Como elemento clave de su deber de proteger a los sujetos humanos, el

investigador principal debería presentar la investigación y los protocolos de
recopilación de datos para que sean analizados y aprobados por una Junta
de Revisión Institucional (JRI), también conocida como Comité Ético
Independiente o Junta de Revisión Ética. La JRI es un comité que ha sido
formalmente nombrado para revisar, aprobar y monitorear la investigación
biomédica y conductual que trabaja con sujetos humanos. Tanto antes de
que comience el estudio como durante su implementación, la JRI revisa los
protocolos de investigación y materiales relacionados con el fin de evaluar la
ética de la investigación y sus métodos. En el contexto de las evaluaciones de
impacto, el análisis de la JRI es particularmente importante cuando el estu-
dio requiere la recopilación de datos de los hogares y de las personas.
Concretamente, el estudio de la JRI verifica si los participantes son capaces
de tomar la decisión de participar de las actividades de recopilación de
datos, y si su elección estará plenamente fundamentada y será voluntaria.
Por último, la JRI analiza si hay algún motivo para creer que la seguridad de
los participantes podría estar en riesgo.
El investigador principal tiene la responsabilidad de identificar todas las
instituciones que deberían revisar y aprobar el estudio. Numerosos países
cuentan con una junta de revisión ética nacional y la mayoría de las univer-
sidades tiene una JRI. Normalmente, al equipo se le pedirá que obtenga la
aprobación ética de la junta de revisión ética nacional correspondiente del
país y de las JRI de cualquier universidad con la que los investigadores ten-
gan alguna filiación. Puede que haya instancias concretas en que las evalua-
ciones de impacto se lleven a cabo en países que no tienen una JRI nacional
o con investigadores cuyas instituciones carecen de dicha junta. En esos
casos, el investigador principal debería contratar una JRI (posiblemente
comercial) con una tercera parte. El proceso de análisis y aprobación puede
tardar entre dos y tres meses, aunque el plazo varía en función de la frecuen-
cia con que se reúne el Comité de la JRI. Los equipos de políticas públicas y
de investigación deberían coordinar las presentaciones a la JRI y las activi-
dades de recopilación de datos, de modo que puedan obtener todas las apro-
baciones requeridas antes de iniciar la recopilación de datos que involucra a
sujetos humanos.
La revisión de la JRI es una condición necesaria pero insuficiente para
asegurar la protección de los sujetos humanos. Las JRI pueden variar en gran
medida en términos de capacidad y experiencia con los experimentos en
ciencias sociales, así como en la focalización de su estudio. Las JRI, sobre
todo si están situadas lejos del lugar donde se lleva a cabo la evaluación, pue-
den no conocer lo suficiente las circunstancias locales para ser capaces de
identificar amenazas contextuales de los sujetos humanos. Puede que pongan
Concepto clave
un énfasis excesivo en la redacción de los cuestionarios y de los formularios
Una junta de revisión
de consentimiento. O puede que tengan experiencia en un ámbito más focali-
institucional (JRI) es un
comité nombrado para
zado, como los experimentos médicos, cuyas normas son bastante diferentes
estudiar, aprobar y de las de los experimentos sociales, en términos de los riesgos para los sujetos
monitorear la humanos. El pensar en la protección de los sujetos humanos no es algo que
investigación con finaliza una vez que se obtiene la aprobación de una JRI; más bien, debería
sujetos humanos. verse como un punto de partida para asegurar que la evaluación sea ética.
Las juntas de revisión institucional suelen requerir la siguiente informa-
ción, que debe presentarse para ser analizada:
Evidencia de capacitación. Numerosas JRI (así como muchas directrices
éticas nacionales) requieren que el equipo de investigación esté capacitado
en la protección de sujetos humanos, aunque las modalidades varían de un
país a otro. Al final de este capítulo, en la sección “Otros recursos”, se expo-
nen diversas opciones de capacitación.
El protocolo de investigación. El protocolo de investigación incluye ele-
mentos centrales normalmente definidos en el plan de evaluación –sobre
todo, la finalidad del estudio y los objetivos de la evaluación, las preguntas
centrales de las políticas públicas y la metodología de evaluación pro-
puesta–, así como también la descripción de cómo el equipo de investiga-
ción asegurará la protección de los sujetos humanos. Como tal, es un
documento importante en la documentación de una evaluación. El proto-
colo de investigación suele incluir los siguientes elementos en relación con
el tratamiento de sujetos humanos: el criterio para seleccionar a los partici-
pantes del estudio (sujetos), la metodología y los protocolos aplicados para
la protección de sujetos vulnerables, los procedimientos para asegurar que
los sujetos sean conscientes de los riesgos y beneficios de participar en el
estudio, y los procedimientos utilizados para garantizar el anonimato. La
empresa encuestadora debería emplear el protocolo de investigación para
orientar los seguimientos del trabajo de campo. En el sitio web de la OMS y
en el Kit de Herramientas de Evaluación de Impacto2 se presenta más infor-
mación sobre el contenido del protocolo de investigación.
Procedimientos para solicitar y documentar el consentimiento informado.
El consentimiento informado es una piedra angular de la protección de los
derechos de los sujetos humanos en cualquier estudio. Exige que los encues-
tados comprendan claramente la finalidad, los procedimientos, los riesgos y
beneficios de la recopilación de datos en que se les pide participar. Por
defecto, el consentimiento informado de un encuestado adulto requiere un
documento por escrito que incluya una sección sobre los métodos utilizados
para proteger la confidencialidad del encuestado, una sección sobre el dere-
cho del encuestado a rechazar o cesar su participación en cualquier
momento, una explicación sobre riesgos y beneficios potenciales, informa-
ción de contacto en caso de que el encuestado quiera contactar al equipo de
recopilación de datos, y espacio para que los encuestados registren su con-
Concepto clave
sentimiento formal por escrito para participar en la recopilación de datos
El consentimiento
mediante una firma. En ocasiones, los participantes del estudio no son capa-
informado es una
ces de tomar la decisión de participar. Por ejemplo, a los niños se les suele piedra angular de la
considerar no capaces de tomar esta decisión. Por lo tanto, al contrario de protección de los
los adultos, los menores no pueden expresar su consentimiento para parti- sujetos humanos.
cipar en una encuesta; pueden acceder a participar si cuentan con un per- Exige que los
miso por escrito de sus padres o tutores. Si bien los pasos descritos encuestados tengan
una clara comprensión
constituyen los procedimientos por defecto, numerosas evaluaciones de
de la finalidad, los
impacto requieren que su JRI les exima del requisito de obtener un consen- procedimientos, los
timiento formal por escrito de los encuestados. Por ejemplo, cuando traba- riesgos y los beneficios
jan con una población analfabeta, a menudo se exime a los potenciales de la recopilación de
adultos encuestados del consentimiento formal por escrito, que se sustituye datos en la que se les
pide participar.
por un consentimiento verbal documentado.3
Procedimientos para proteger la confidencialidad del encuestado. La
protección de la confidencialidad del encuestado es crucial cuando se
trata de almacenar y divulgar datos públicamente. Toda la información
proporcionada a lo largo de la recopilación de datos debería ser anónima
para proteger la identidad de los encuestados. A pesar de que los resulta-
dos del estudio pueden publicarse, el informe debería redactarse de tal
manera que no sea posible identificar un individuo o un hogar. En lo que
respecta a la garantía de confidencialidad de los datos, se debería asignar
a cada sujeto de la encuesta un único número de identificación encrip-
tado, y se deberían eliminar todos los nombres e identificadores de la base
de datos que se divulga públicamente. Los identificadores incluyen cual-
quier variable que permita el reconocimiento de individuos u hogares
(como direcciones) o cualquier combinación de variables que haga lo
mismo (como una combinación de fecha y lugar de nacimiento, sexo y
años de escolarización). En caso de que el equipo de investigación prevea
que necesitará los identificadores con el fin de hacer un seguimiento de
los entrevistados en una encuesta posterior, puede gestionar una base
de datos independiente y guardada en condiciones de seguridad, que vin-
cule los ID individuales encriptados con la información de identificación
de los encuestados.4 Además de encriptar los ID individuales, puede que
también sea necesario encriptar las localizaciones e instituciones. Por
ejemplo, si los hogares y los individuos están codificados con ID encripta-
dos, pero las localidades están identificadas, puede que sea posible
reconocer los hogares a través de las características contenidas en la
encuesta. Por ejemplo, puede que una localidad concreta incluya solo un
hogar que posee una motocicleta, siete vacas y una peluquería. Cualquiera
con acceso a los datos podría ser capaz de localizar el hogar y de esta
manera se violaría la confidencialidad.
Garantizar evaluaciones fiables y creíbles

mediante la ciencia abierta
Uno de los objetivos fundamentales de la evaluación de impacto consiste en

estimar el impacto de un programa en una gama de resultados de interés. En
la segunda parte de este capítulo se abordan una serie de métodos para ase-
gurar que los impactos estimados sean robustos. Una evaluación de impacto
bien diseñada y bien implementada debería garantizar que los resultados no
estén sesgados, sean fiables y creíbles, y que contribuyan a un acervo de
conocimiento más amplio. Cuando las evaluaciones no están sesgadas, y son
fiables y creíbles y se pueden interpretar dentro de un acervo relevante de
conocimiento relacionado, pueden contribuir a que se tomen las decisiones
adecuadas de política pública y se mejoren las vidas de las personas. Sin
embargo, en la práctica, hay varios problemas que pueden impedir que este
ideal se alcance. En esta sección, se analizará cómo diversas cuestiones cien-
tíficas de la evaluación de impacto se pueden convertir en asuntos difíciles
para los responsables de las políticas, y se presentarán medidas potenciales
para evitar o mitigar estos problemas. Estas medidas se suelen agrupar bajo
la denominación de ciencia abierta, porque su objetivo consiste en lograr
que los métodos de investigación sean transparentes.5 La mayoría de estos
problemas tienen que ser manejados por el equipo de investigación, pero el
equipo de política que supervisa una evaluación de impacto tiene que ser
consciente de los mismos mientras administra las evaluaciones de impacto.
En el cuadro 13.1 se resumen los problemas, las implicaciones de política y
las posibles soluciones.
Cuadro 13.1 Asegurar información fiable y creíble para las políticas mediante la ciencia abierta
Soluciones de prevención y
Implicaciones para las mitigación mediante la
Problemas de la investigación políticas públicas ciencia abierta
Sesgo de la publicación. Solo se Las decisiones de política se Registros de ensayos.
publican los resultados positivos. basan en un acervo distorsionado
Las evaluaciones que muestran de conocimiento. Los responsa-
impactos limitados o nulos no se bles de la política pública tienen
divulgan ampliamente. escasa información sobre lo que
no funciona y siguen probando/
adoptando políticas que no
tienen impacto alguno.
Minería de datos. Los datos se Las decisiones de política para Planes de preanálisis.
fragmentan cada vez más hasta adoptar intervenciones pueden
que aparece un resultado positivo estar basadas en estimaciones
en la regresión, o la hipótesis se positivas no justificadas de los
reajusta a los resultados. impactos.
Pruebas de hipótesis múltiples, Las decisiones de política Planes de preanálisis y técnicas
análisis de subgrupo. Los investiga- pública para adoptar intervencio- de ajustes estadísticos especia-
dores fragmentan cada vez más los nes pueden estar basadas en lizadas, como las pruebas de
datos hasta que encuentran un estimaciones positivas no índices, la tasa prudente de
resultado positivo para algún grupo. justificadas de los impactos. error relacionada con la familia
Concretamente: (1) las múltiples y el control de la tasa de falsos
pruebas conducen a la conclusión descubrimientos.a
de que algunos impactos existen
cuando en realidad no existen; o (2)
solo se informa sobre los impactos
que son significativos.

Cuadro 13.1 Asegurar información fiable y creíble para las políticas mediante la ciencia abierta (continúa)
Soluciones de prevención y
Implicaciones para las mitigación mediante la
Problemas de la investigación políticas públicas ciencia abierta
Falta de replicación. No se pueden La política puede basarse en La documentación y el registro
replicar los resultados porque el resultados manipulados de los datos, incluidos los
protocolo de investigación, los datos (positivos o negativos), dado protocolos de proyecto, los
y los métodos de análisis no están que los resultados pueden códigos de organización, la
suficientemente documentados. deberse a errores de cálculo. publicación de los códigos, y la
publicación de datos.
Los errores y las manipulaciones Los resultados entre diferentes
pueden pasar inadvertidos. estudios no se pueden comparar. Cambios en las políticas de las
revistas arbitradas y de
A los investigadores no les interesa La validez de los resultados
financiamiento para requerir
replicar los estudios, y a las revistas en otro contexto no se puede
documentación acerca de los
arbitradas no les interesan los probar.
datos y promover la replicación.
resultados “yo también”.
No se pueden replicar las interven- Los responsables de la política
ciones porque el protocolo de pueden ser incapaces de
intervención no está suficientemente replicar la intervención en un
documentado. contexto diferente.
a. Para una introducción básica al problema de las comparaciones múltiples y las correcciones estadísticas potenciales, se
recomienda consultar https://en.wikipedia.org/wiki/Multiple_comparisons_problem.
Sesgo en la publicación y registros de pruebas
Normalmente, a los investigadores que trabajan en evaluaciones de impacto

les interesa asegurarse de que los resultados de sus evaluaciones sean publi-
cados en revistas arbitradas porque eso contribuye a su carrera profesional.
Sin embargo, la mayoría de los resultados que aparecen en estas publicacio-
nes muestran impactos positivos. Por lo tanto, se impone la pregunta de qué
sucede con las evaluaciones que tienen resultados negativos o que no pue-
den mostrar resultados significativos. Los investigadores prácticamente no
tienen incentivos para consignar resultados no significativos o someterlos a
publicaciones arbitradas porque perciben que hay escaso interés en los
resultados y que las revistas rechazarán sus documentos (Franco, Malhotra
y Simonovits, 2014). Este sesgo en la publicación suele denominarse “pro-
blema del cajón de archivador” porque los resultados permanecen en el
“archivador” y no son divulgados ni publicados. Pueden surgir problemas de
sesgo de publicación similares en las evaluaciones de impacto de programas
específicos. Es más probable que los equipos de política pública, los finan-
ciadores y los gobiernos den a conocer y publiciten los resultados positivos
de una evaluación de un programa en lugar de difundir resultados negativos
o ausencia de resultados. Debido a estas tendencias, es difícil tener un
cuadro claro de las intervenciones que no funcionan, dado que los
resultados no suelen estar disponibles y el acervo de evidencia con el que se
cuenta está más bien distorsionado. Los responsables de la política pública
que tratan de basar sus decisiones en la evidencia disponible quizá no ten-
gan acceso a resultados no publicados; como consecuencia, puede que
continúen intentando trabajar con políticas que no han tenido éxito en otros
lugares.
Una solución parcial al sesgo de publicación es el registro de las pruebas.
Se debería alentar a los equipos de evaluación de impacto a registrar sus
pruebas, y en ese sentido el equipo de política pública tiene un importante
rol que desempeñar para asegurar que el equipo de investigación registre la
evaluación de impacto. El registro de pruebas es muy común (y a menudo
requerido) en las ciencias médicas, pero recién comienza a ganar terreno en
las ciencias sociales, lo que incluye las evaluaciones de impacto. El registro
implica que los investigadores declaren públicamente su intención de llevar
a cabo una evaluación antes de hacerlo realmente, dejando asentada infor-
mación clave acerca de la evaluación en un registro (véase el recuadro 13.1).
Como consecuencia, debería ser posible tener una lista completa de las
evaluaciones de impacto que se hayan llevado a cabo, tanto si los resultados
fueron positivos como si no lo han sido.
Recuadro 13.1: Registro de pruebas en las ciencias sociales

Las evaluaciones de impacto de las políticas de ingresos bajos y medios. En julio de
públicas normalmente deberían asentarse 2015 contaba con alrededor de 64 evalua-
en los registros de ciencias sociales en lugar ciones registradas.
de hacerlo en los registros médicos, debido > El Center for Open Science gestiona el
al carácter de la investigación. He aquí unos Marco de Ciencia Abierta (OSF, por sus
cuantos ejemplos: siglas en inglés) y tiene un foco ligera-
> El registro de la American Economic mente diferente, pero también puede
Association para pruebas aleatorias con- servir como registro (https://osf.io/). El
troladas se puede consultar en http// OSF es un sistema de gestión basado en
www.socialscienceregistry.org. En julio la nube para proyectos de investigación,
de 2015 contenía 417 estudios realizados que permite crear “fotos instantáneas”
en 71 países. de la investigación en cualquier momento
> La Iniciativa Internacional para la del tiempo, con una URL persistente y
Evaluación de Impacto (3ie) gestiona el una marca de fecha. Los investigadores
Registry for International Development pueden subir su protocolo, investigar
Impact Evaluations (RIDIE), que se cen- hipótesis, datos y códigos en el OSF, y
tra en las evaluaciones de impacto rela- compartir el enlace resultante de la web
cionadas con el desarrollo de los países como prueba de registro.

Los registros constituyen un gran paso hacia adelante para garantizar que
el acervo disponible de conocimiento no se distorsione más. Sin embargo, aún
persisten muchas dificultades. Por ejemplo, aunque quede claro en un regis-
tro que una evaluación se llevó a cabo, puede que no sea tan fácil obtener
información acerca de los resultados de la misma. Las evaluaciones de
impacto se pueden suspender o pueden no llevarse a cabo. E incluso si se
encuentra disponible la falta de resultados de una evaluación, esto a menudo
suscita un conjunto adicional de preguntas que complican la interpretación
de los resultados: ¿Acaso los investigadores no encontraron resultados porque
la evaluación estaba mal diseñada y ejecutada, porque el programa no estaba
bien implementado, o porque el programa realmente no tuvo un impacto?
Como se verá en el capítulo 16, la recopilación de datos complementarios a
través del monitoreo del programa o desde fuentes alternativas de datos
puede contribuir a garantizar que los resultados estén bien interpretados.
Minería de datos, pruebas de hipótesis múltiples y análisis de

subgrupos
Otro problema potencial relacionado con la evaluación de impacto es la

minería de datos, la práctica de manipular los datos en búsqueda de resulta-
dos positivos. La minería de datos puede manifestarse de diferentes
maneras. Por ejemplo, cuando hay datos disponibles, puede que aparezca la
tentación de aplicar regresiones sobre los mismos hasta que surja “algo”
positivo, y luego reajustar una hipótesis atractiva a aquel resultado. Esto
constituye un problema por el siguiente motivo: cuando se aplican pruebas
estadísticas para la significancia de los impactos, hay que utilizar un nivel de
significancia de, por ejemplo, 5%. Estadísticamente, 1 en 20 pruebas de
impacto arrojarán niveles significativos al 5%, aun cuando la distribución
subyacente no garantice un impacto (véase el capítulo 15 para un debate
sobre los errores de tipo I). Con la minería de datos, ya no se puede garanti-
zar que el resultado de un impacto sea genuino, ni si proviene únicamente
de las propiedades estadísticas de la prueba. Este problema está relacionado
con la cuestión de las pruebas de hipótesis múltiples, a saber: cuando una
investigación incluye múltiples hipótesis diferentes, existe una alta probabi-
lidad de que al menos una de ellas se confirme con una prueba positiva úni-
camente por azar (debido a las propiedades estadísticas de la prueba), y no
debido al impacto real. Una situación similar surge en el análisis de subgru-
pos: cuando la muestra es lo suficientemente grande, los investigadores
podrían intentar subdividirla hasta que encuentren un impacto en algún
subgrupo. Una vez más, no se puede estar seguro de que un resultado de
impacto en ese subgrupo sea un resultado genuino, o si proviene única-
mente de las propiedades estadísticas de la prueba.
Otro ejemplo de minería de datos tiene lugar cuando la decisión de
continuar o suspender la recopilación de datos se vuelve dependiente de un
resultado intermedio: por ejemplo, una encuesta de hogares se planificó
para un tamaño de muestra de 2.000 hogares y el trabajo de campo ha avan-
zado hasta los 1.000. Si esta muestra reducida produce un resultado positivo
de la evaluación de impacto y se toma la decisión de suspender la recopila-
ción de datos para evitar el riesgo de que más datos puedan cambiar los
resultados, esto sería minería de datos. Otros ejemplos son la exclusión de
ciertas observaciones o grupos inconvenientes, o el ocultamiento selectivo
de resultados que no encajan. Si bien no hay motivos para creer que estas
prácticas son generalizadas, unos cuantos casos flagrantes y de alto perfil
tienen el potencial para socavar la evaluación de impacto como ciencia.
Además, incluso hay casos menores de minería de datos que tienen el poten-
cial de distorsionar el acervo de evidencia utilizado por los responsables de
la política pública para decidir qué intervenciones comenzar, continuar o
suspender.
Una recomendación habitual para evitar la minería de datos consiste en
utilizar un plan de preanálisis. Este plan define los métodos de análisis antes
de llevar a cabo el análisis de evaluación de impacto, dejando en claro así el
foco de la evaluación y reduciendo el potencial para alterar los métodos una
vez que haya comenzado el análisis. El plan de preanálisis debería especifi-
car los resultados que se medirán, las variables construidas y utilizadas, los
subgrupos para los que se llevará a cabo el análisis y los enfoques analíticos
básicos que se utilizarán en la estimación de los impactos. Los planes de
preanálisis también deberían incluir las correcciones propuestas por los
investigadores en las pruebas de hipótesis múltiples y pruebas de subgru-
pos, si se requiere. Por ejemplo, probar el impacto de una intervención en
educación de seis diferentes puntuaciones de pruebas (matemáticas, inglés,
geografía, historia, ciencia, francés) para cinco grupos diferentes de escue-
las (grados 1 a 5) y dos sexos (masculino y femenino) arrojaría 60 hipótesis
diferentes, una o varias de las cuales están destinadas a tener una prueba
significativa solo por azar. Al contrario, el investigador podría proponer
calcular uno o más índices que agrupan a los indicadores, para reducir el
número de hipótesis y subgrupos.6
Aunque un plan de preanálisis puede contribuir a aliviar la preocupación
de la minería de datos, también existe la preocupación de que podría elimi-
nar parte de la flexibilidad necesaria en el tipo de análisis que llevan a cabo
los investigadores. Por ejemplo, puede que el plan de preanálisis especifique
los canales anticipados de impacto de una intervención a través de la cadena
de resultados. Sin embargo, una vez que la intervención se implemente en la
práctica, de pronto puede surgir un conjunto de factores adicionales no anti-
cipados. Por ejemplo, si un gobierno está pensando en implementar una
nueva manera de pagar a los proveedores de cuidados de salud, uno podría
identificar posibles canales de impacto. Sin embargo, sería muy difícil anti-
cipar todos los efectos posibles que esto podría tener. En algunos casos, sería
necesario realizar entrevistas cualitativas con los proveedores para enten-
der precisamente cómo se adaptan a los cambios y cómo esto influye en el
desempeño. Sería muy difícil incorporar todas estas posibilidades en el plan
de preanálisis por adelantado. En ese caso, los investigadores tendrían que
trabajar por fuera del plan de preanálisis original, y no ser penalizados por
ello. En otras palabras, un plan de preanálisis puede otorgar una credibilidad
adicional a las evaluaciones, convirtiéndolas en confirmaciones de una hipó-
tesis en lugar de ser solo investigación exploratoria; sin embargo, los investi-
gadores deberían poder seguir explorando nuevas opciones que se pueden
convertir en investigación confirmativa en evaluaciones posteriores.
Falta de replicación
Hay dos tipos de replicaciones importantes para la evaluación de impacto. En

primer lugar, en un determinado estudio, los investigadores que no pertene-
cen al equipo de investigación original deberían poder reproducir los mismos
resultados (o al menos muy similares) que los investigadores originales utili-
zando los mismos datos y análisis. Las replicaciones de un determinado
resultado de la evaluación de impacto constituyen una manera de verificar su
validez interna y su ausencia de sesgo. Cuando los estudios o los resultados
no pueden replicarse debido a la falta de disponibilidad de información sobre
la codificación o los datos, existe el riesgo de que los errores y las manipula-
ciones en el análisis pasen desapercibidos, y de que los resultados imprecisos
sigan influyendo en las políticas. Afortunadamente, se están logrando avan-
ces sustanciales en términos de hacer disponibles los datos, los códigos y los
protocolos. Cada vez más revistas arbitradas de ciencias sociales están
comenzando a exigir que esos datos y códigos estén disponibles junto con la
publicación de los resultados. Directrices como las de Promoción de la
Transparencia y la Apertura, desarrolladas por el Centro para la Ciencia
Abierta, están cambiando lentamente las prácticas y los incentivos. Para ase-
gurar que pueda realizarse la replicación, los equipos de evaluación de
impacto tienen que hacer disponibles públicamente los datos y asegurar que
todos los protocolos (incluido el de aleatorización), las bases de datos, y los
códigos de análisis de la evaluación de impacto estén documentados, almace-
nados en condiciones de seguridad y suficientemente detallados.
En segundo lugar, una vez que se completa una evaluación, debería ser
posible que otros responsables de la política pública e investigadores utili-
cen las intervenciones y protocolos de evaluación originales y los apliquen
en un contexto diferente o en un momento distinto para ver si los resultados
se mantienen bajo circunstancias diversas. La falta de replicación de los
resultados de la evaluación es un asunto serio para los responsables de la
política pública. Por ejemplo, una evaluación muestra que la introducción
de computadores en las escuelas tiene resultados sumamente beneficiosos,
pero este es el único estudio que produjo esos resultados y otros investiga-
dores no han podido obtener los mismos resultados positivos en posteriores
evaluaciones de programas similares. ¿Qué debe hacer un responsable de
política pública en ese caso? La falta de replicación de los resultados puede
deberse a diferentes causas. En primer lugar, quizá sea difícil llevar a cabo
evaluaciones que intenten solo replicar resultados que fueron obtenidos en
un estudio anterior: puede que ni a los investigadores ni a los financiadores
les interesen los estudios de “yo también”. En segundo lugar, aun cuando
existan la voluntad y los fondos para replicar los estudios, la replicación no
siempre es posible porque puede que los protocolos (incluido el de aleatori-
zación), los datos, y los códigos de análisis del estudio original no estén dis-
ponibles ni sean lo suficientemente detallados. Se observa un esfuerzo
creciente entre las organizaciones que apoyan las evaluaciones de impacto
para alentar replicaciones en diferentes contextos: por ejemplo, desarro-
llando grupos de estudio sobre temas similares o promoviendo evaluaciones
de impacto de multisitios.
Lista de verificación: una evaluación de impacto

ética y creíble
Los responsables de la política pública tienen un importante rol que desempe-

ñar para asegurar que se creen las condiciones necesarias para una evaluación
de impacto ética y creíble. Concretamente, los responsables de la política
pública tienen la responsabilidad fundamental de asegurar que las reglas de
asignación del programa sean justas, y pueden pedir al equipo de investiga-
ción una rendición de cuentas de la transparencia de los métodos de investi-
gación. A continuación, se sugiere una lista de preguntas de verificación.
 ¿Es justa la asignación a los grupos de tratamiento y comparación? ¿Hay
grupos con necesidades particularmente acuciantes que deberían recibir
el programa de todas maneras? ¿Quién será excluido de la evaluación de
impacto?
 ¿El equipo de investigación ha identificado la JRI o el comité de revisión
ética nacional pertinente?
 ¿Permite el calendario de la evaluación de impacto contar con tiempo
suficiente para preparar y presentar el protocolo de investigación a la JRI
y obtener consentimiento antes de que comience la recopilación de datos
de sujetos humanos?
 ¿El equipo de investigación presentó el protocolo de investigación y el
plan de preanálisis a un registro de pruebas de ciencias sociales?
 ¿Existe un procedimiento para asegurar que los elementos clave de la
intervención estén documentados tal como ocurren en la práctica, y no
solo como están planificados?
 ¿Los responsables de la política pública comprenden que los resultados
de la evaluación pueden mostrar que la intervención no fue efectiva, y
están de acuerdo en que esos resultados serán publicados y no retenidos?
 ¿El equipo de evaluación ha identificado la manera en que se divulgarán
los datos y los resultados de la evaluación, aun cuando el equipo de inves-
tigación no consiga publicar los resultados en una revista arbitrada?
Los principios, los problemas y la lista de verificación definidos en este
capítulo pueden contribuir a asegurar que una evaluación de impacto sea
creíble y ética.
Otros recursos
• Capacitación en investigación con sujetos humanos de los Institutos Naciona-
les de Salud (National Institutes of Health o NIH) de Estados Unidos.
➢ Los NIH ofrecen una capacitación en línea que, si bien se centra en las
ciencias médicas y en Estados Unidos, es muy informativa y se tarda solo
una hora en completarla. Véanse los enlaces: http://phrp.nihtraining.com
/users/login.php y www.ohsr.od.nih.gov.
• Capacitación en investigación con sujetos humanos a través de la Iniciativa de
Capacitación Institucional Colaborativa (CITI) de la Universidad de Miami.
➢ La CITI brinda cursos internacionales en varias lenguas tanto a organiza-
ciones como a individuos, aunque el programa tiene un costo (valor inicial:
US$100 por persona). Véase http://www.citiprogram.com.
• Compilación internacional de normas de investigación en seres humanos:
➢ Cada año, el Departamento de Salud y de Servicios Humanos de Estados
Unidos publica una compilación de leyes, regulaciones y directrices que
rigen la investigación sobre seres humanos. La edición de 2015 incluye 113
países, así como también las normas de diversas organizaciones internacio-
nales y regionales. El documento contiene las juntas de revisión institucio-
nal nacionales e internacionales (http://www.hhs.gov/ohrp/international).

• Procedimientos para la protección de sujetos humanos en investigaciones
apoyadas por la Agencia de los Estados Unidos para el Desarrollo Internacional
(USAID). Véase el enlace http://www.usaid.gov/policy/ads/200/humansub.pdf.
• Manual de mejores prácticas en la investigación transparente en ciencias sociales,
de Garret Christensen, con la asesoría de Courtney Soderberg (Center
for Open Science). Véase el enlace https://github.com/garretchristensen
/BestPracticesManual.
➢ Guía de trabajo de las últimas mejores prácticas para la investigación
cuantitativa transparente en ciencias sociales. El manual es actualizado de
manera regular.
• Directrices de Promoción de la Transparencia y la Apertura (TOP). Véase el
enlace http://centerforopenscience.org/top/.
➢ Las directrices se pueden encontrar en el sitio web del Center for Open
Science.
• Para enlaces a juntas de revisión independientes reconocidas y servicios inde-
pendientes de JRI, véase el Portal de Evaluación del Banco Interamericano de
Desarrollo (BID): http://www.iadb.org/portalevaluacion.
• Para más información sobre la recopilación de datos, véase el Portal de Eva-
luación del BID: http://www.iadb.org/portalevaluacion.
➢ Véase la sección sobre recopilación de datos en la sección de protección de
sujetos humanos.
➢ Nótese que el enlace de la Association for the Accreditation of Human
Research Protection Programs (AAHRPP) ofrece capacitación y certifi-
cación para las JRI. Se puede encontrar una lista de las organizaciones
acreditadas en su sitio web.
• Para directrices sobre la protección de los participantes, véase el Kit de
Herramientas de Evaluación de Impacto (Impact Evaluation Toolkit) del Banco
Mundial, Módulo 4 (http://www.worldbank.org/health/impactevaluationtoolkit).
Notas
1. En ausencia de directrices de ética nacional, el investigador y el equipo deberían
orientarse según la declaración de Helsinki adoptada por la 29 Asamblea Médica
Mundial en Tokio (octubre de 1975) y el artículo 7 del Acuerdo Internacional de
Derechos Civiles y Políticos, aprobado por la Asamblea General de las Naciones
Unidas el 16 de diciembre de 1966. Se encontrarán otras fuentes en la Organiza-
ción Mundial de la Salud (OMS) y en el “Informe Belmont sobre principios
éticos” y las “Directrices para la protección de seres humanos” (1974) (http://
www.hhs.gov/ohrp/policy/belmont.html). Una compilación internacional de
normas de investigación sobre seres humanos se puede hallar en http://www
.hhs.gov/ohrp/international.
2. Las directrices de la OMS sobre cómo elaborar un protocolo para una investiga-
ción que cuente con la participación de seres humanos se pueden encontrar en
http://www.who.int/rpc/research_ethics/guide_rp/en/index.html.

3. Para más información sobre los procedimientos de consentimiento durante la
recopilación de datos, consúltese el Kit de Herramientas de Evaluación de
Impacto (Impact Evaluation Toolkit) del Banco Mundial.
4. Se puede encontrar más información sobre la asignación de los ID en el Kit de
Herramientas de Evaluación de Impacto (Impact Evaluation Toolkit) del Banco
Mundial.
5. Para más información sobre las recomendaciones de la ciencia abierta en el
contexto de la evaluación de impacto, consúltese Miguel et al. (2014).
6. Existen otras técnicas. Véase, por ejemplo, Anderson (2008).
Anderson, M. L. 2008. “Multiple Inference and Gender Differences in the Effects of
Early Intervention: A Reevaluation of the Abecedarian, Perry Preschool, and
Early Training Projects.” Journal of the American Statistical Association 103
(484): 1481–95.
Christensen, G. y C. Soderberg. 2015. The Research Transparency Manual. Berkeley
Initiative for Transparency in the Social Sciences. Disponible en https://github
.com/garretchristensen/BestPracticesManual.
Franco, A., N. Malhotra y G. Simonovits. 2014. “Publication Bias in the Social
Sciences: Unlocking the File Drawer.” Science 345 (6203): 1502–05.
Miguel, E., C. Camerer, K. Casey, J. Cohen, K. M. Esterling et al. 2014. “Promoting
Transparency in Social Science Research.” Science 343: 30–31.

CAPÍTULO 14
Divulgación de resultados y
generación de impacto en las
políticas públicas
Una base de evidencia sólida para las políticas

públicas
Por fin se ha completado la ardua tarea de evaluar el programa desde el

comienzo hasta el final, un esfuerzo de varios años que requirió recursos
financieros y humanos considerables. Se han presentado los productos fina-
les de la evaluación, entre ellos un informe de 200 páginas, junto con múlti-
ples anexos. ¿Misión cumplida?
En realidad, ahora se inicia una nueva fase, que consiste en asegurar que
todo este esfuerzo rinda sus frutos y se traduzca en un impacto en las políticas.
Las evaluaciones de impacto se realizan para rendir cuentas de las inversiones
realizadas en el pasado e informar las decisiones de las políticas públicas hacia
el futuro pensando en un desarrollo más costo-efectivo, de modo que los
escasos recursos produzcan los mayores retornos sociales posibles. Esas deci-
siones de política pública dependerán de un conjunto de factores, que abarcan
desde la economía política hasta las posiciones ideológicas de los usuarios
de la información. Sin embargo, las evaluaciones de impacto pueden y
deben influir en las políticas públicas proporcionando una sólida base de evi-
dencia que oriente los recursos hacia intervenciones efectivas y probadas.
275
Desde las primeras etapas de un nuevo programa, incluso cuando este
está siendo concebido, la evidencia de evaluaciones de impacto existentes
debería desempeñar un rol central para fundamentar el diseño del programa
y orientar el próximo conjunto de preguntas de la evaluación.
Concepto clave Sin embargo, el proceso de influir en las políticas públicas no suele ocu-
Las evaluaciones de rrir de forma espontánea solo gracias a la generación de evidencia. En pri-
impacto deben mer lugar las evaluaciones de impacto deben responder a preguntas
responder a las relevantes de las políticas públicas de manera rigurosa, presentando eviden-
preguntas relevantes
cia práctica a los principales interesados de manera oportuna. Sin embargo,
de las políticas
públicas con rigor, puede que los responsables de las políticas y los administradores del pro-
aportar evidencia grama no tengan ni el tiempo ni la energía para ahondar en los detalles de un
práctica de manera informe de 200 páginas, y procuren extraer las principales conclusiones y
oportuna a los recomendaciones. La información generada a través de las evaluaciones de
principales impacto tiene que estar organizada y divulgada de manera que sea fácil-
interesados, y divulgar
mente accesible y utilizable para los encargados de la toma de decisiones.
la evidencia de forma
que sea fácilmente En este capítulo, se trata cómo la evaluación de impacto puede influir en
accesible y utilizable las políticas públicas, los grupos clave a los que conviene llegar, y las estrate-
por parte de los gias para comunicar y divulgar información para un público focalizado de
responsables de las manera que la evaluación genere un impacto en las políticas públicas.
decisiones.
El punto de partida para influir en las políticas es la selección de las pre-
guntas relevantes de la evaluación que serán útiles para tomar decisiones de
políticas públicas, como se señala en la primera parte de este libro. Durante
las etapas iniciales del diseño de una evaluación de impacto, es probable que
los responsables de las políticas y los evaluadores comiencen con una lista
larga de preguntas. Estas preguntas deberían ser consensuadas con el princi-
pal grupo de interesados y responsables de las decisiones que, eventualmente,
utilizarán la evaluación de impacto para tomar decisiones. La lista larga suele
ajustarse y mejorarse con el tiempo para incluir un número más limitado de
preguntas bien formuladas que sean relevantes para las políticas públicas y
que a su vez puedan responderse mediante una evaluación de impacto, utili-
zando los métodos expuestos en la segunda parte de este libro. Lograr simul-
táneamente que los responsables de las políticas definan las preguntas
importantes y que el equipo de evaluación pondere la viabilidad técnica de
responderlas es un primer paso crucial para influir en las políticas.
Una vez que el programa haya comenzado, es probable que la evaluación de
impacto produzca importantes insumos analíticos que pueden servir para fun-
damentar las políticas mucho antes de que el programa y la evaluación de
impacto hayan dado sus frutos. Un ejemplo habitual es el de las conclusiones de
una encuesta de línea de base o de un análisis de los resultados a corto plazo.
Las encuestas de línea de base a menudo producen los primeros datos exhaus-
tivos y específicos de la población para un programa, y proporcionan estadísti-
cas descriptivas que se pueden incorporar en el diseño del programa y en el
diálogo de políticas. Así como un programa puede tener una descripción gene-
ral de su población focalizada a través de encuestas nacionales o estudios de
diagnóstico, la encuesta de línea de base brinda la primera información deta-
llada sobre subpoblaciones o zonas geográficas específicas donde el programa
va a operar. Por ejemplo, un programa diseñado para mejorar la nutrición
infantil a través de suplementos nutricionales puede tener estadísticas sobre las
tasas de desnutrición crónica y desnutrición aguda a nivel nacional a partir de
las encuestas existentes, pero la encuesta de línea de base puede proporcionar
las primeras medidas de la situación nutricional y de los hábitos alimentarios
del grupo de niños que el programa cubrirá en su área de trabajo. Este tipo de
información puede ser valiosa para un diseño de intervención a la medida,
y debe hacerse disponible para el equipo de políticas públicas de manera
oportuna (idealmente antes de que se implemente la intervención) con el fin
de influir en el diseño del programa. El recuadro 14.1 presenta un ejemplo
de Mozambique.
Recuadro 14.1: El impacto en las políticas públicas de un modelo

innovador de educación preescolar en Mozambique
(continuación del capítulo 1)
En el capítulo 1 (recuadro 1.2) se presentó la muchos niños sufrían retrasos en diversos

evaluación de un programa de educación parámetros, desde lenguaje y comunicación
preescolar comunitario, de Save the hasta desarrollo cognitivo y socioemocional.
Children, aplicado en Mozambique, la cual La encuesta de línea de base fue
constituyó un insumo fundamental para las presentada por el equipo de evaluación en
políticas de desarrollo infantil temprano a seminarios y talleres, y se debatieron los
nivel nacional. Sin embargo, antes de que el resultados con responsables de las políticas
programa finalizara, la evaluación generó de alto nivel, con donantes internacionales y
información nueva y reveladora para el con las principales partes interesadas
debate de las políticas en este ámbito en el provenientes de la comunidad de desarrollo
país. La encuesta de línea de base arrojó las infantil temprano (DIT). Los datos generados
primeras medidas de los resultados del a través de la evaluación de impacto
desarrollo infantil basadas en la población, corroboraron la necesidad de destinar
utilizando pruebas especializadas de desa- inversiones a este ámbito, y desempeñaron
rrollo infantil adaptadas al contexto de un rol catalítico para movilizar el apoyo a favor
Mozambique, y recopiladas por personal de la agenda de desarrollo infantil en el país.
especializado. A pesar de que los datos pro- Una vez completada, la evaluación se divulgó
venían de un grupo seleccionado de comuni- a través de diversos medios, entre ellos notas
dades en una provincia de aquel país, las informativas de políticas, videos y blogs,
estadísticas de línea de base proporcionaron algunos de los cuales han sido incorporados
una primera imagen de los resultados de en el sitio web de la Iniciativa Internacional
desarrollo infantil en el país, mostrando que para la Evaluación de Impacto (3ie).
Divulgación de resultados y generación de impacto en las políticas públicas 277

Algunas evaluaciones de impacto, sobre todo aquellas que dependen de
fuentes de datos administrativos o de encuestas periódicas, pueden produ-
cir resultados intermedios que retroalimentan al programa mientras este
está siendo implementado. Estos resultados proporcionan información y
recomendaciones valiosas sobre cómo los indicadores a lo largo de la trayec-
toria causal cambian a lo largo del tiempo, lo que permite que se ajusten de
manera correspondiente tanto la implementación del programa como la
programación en el tiempo de las actividades de evaluación. Por ejemplo, si
a mitad de un programa queda claro que no hay efectos en los resultados de
corto plazo, puede que se aconseje implementar una evaluación operativa
para detectar cuellos de botella y poner en marcha acciones correctivas.
El plazo de la evaluación podría ajustarse de modo de evitar la realización
de una costosa encuesta de seguimiento antes de que los resultados de la
intervención hayan tenido la chance de producirse. En el ejemplo de la
nutrición infantil, si los análisis de los datos administrativos sobre la distri-
bución de los suplementos nutricionales demuestran que estos últimos no
están llegando a los beneficiarios previstos, el equipo de políticas públicas
puede recibir una alerta sobre la necesidad de revisar su cadena de suminis-
tro. La encuesta de seguimiento para medir la estatura y el peso de los niños
podría aplazarse hasta varios meses después de que el programa haya
comenzado a funcionar de manera efectiva, puesto que no hay motivos para
creer que el programa nutricional genere impactos antes si no estaba lle-
gando a sus participantes.
Las evaluaciones de impacto tienden a producir grandes volúmenes de
información, que abarcan desde los fundamentos técnicos del diseño de
evaluación hasta estadísticas descriptivas y análisis de impacto, junto con
bases de datos, códigos estadísticos e informes. Es crucial que el equipo de
evaluación realice un esfuerzo para documentar toda la información a lo
largo del ciclo de evaluación y, en la medida de lo posible, divulgue la docu-
mentación (no confidencial) técnica relevante en el dominio público, por
ejemplo, a través de un sitio web especializado. Eventualmente, la credibili-
dad de los resultados de la evaluación dependerá de la metodología y del
rigor con que se haya implementado la evaluación. La plena transparencia
fortalece la fiabilidad de la evaluación y su potencial para influir en las polí-
ticas públicas.
Si bien la completitud y la transparencia son cruciales, la mayoría de los
consumidores de la información no ahondarán en detalles. Dependerá del
equipo de evaluación elaborar un conjunto manejable de mensajes clave que
resuma los resultados y recomendaciones más relevantes para las políticas
públicas, y divulgar estos mensajes de forma congruente entre diferentes
públicos. La programación de las actividades de divulgación también es
esencial para generar un impacto en las políticas. A menos que el equipo de
políticas acuerde lo contrario, las rondas iniciales de presentaciones y con-
sultas sobre los resultados de una evaluación deberían llevarse a cabo inter-
namente, con el personal del programa, los gestores y los responsables de las
políticas públicas. Un resultado prematuro filtrado al dominio público
puede dañar la reputación de un programa entrañando perjuicios duraderos
para el impacto de la evaluación en las políticas.
Elaboración a la medida de una estrategia de

comunicación para diferentes públicos
Hay al menos tres públicos primarios para las conclusiones de una evalua-
ción de impacto: el personal del programa y los administradores involucra-
dos en el programa específico que se evalúa; los responsables de las políticas
de alto nivel que utilizarán la evaluación para fundamentar las decisiones de
financiamiento y de diseño de las políticas; y la comunidad de práctica, que
en términos amplios abarca la comunidad académica, los responsables del
desarrollo, la sociedad civil (incluidos los medios de comunicación) y los
participantes en el programa. Cada uno de estos públicos tendrá diferentes
intereses en los resultados de la evaluación y requerirá estrategias de comu-
nicación elaboradas a su medida cuando se trata de conseguir el objetivo de
servir de fundamento e influir en las políticas (cuadro 14.1).
Técnicos y administradores. El primer público clave son los miembros del
personal técnico y operativo, y los administradores que diseñaron e imple-
mentaron el programa, así como los representantes de instituciones (como
los ministerios o una institución de financiamiento) estrechamente asocia-
dos con el proyecto. Estas personas normalmente serán las primeras en
conocer los resultados de la evaluación, y elaborar comentarios sobre las
interpretaciones y recomendaciones de la evaluación.
Dado que esta suele ser la primera vez que los resultados ven la luz del día,
es clave programar la divulgación de información entre estos interesados. Por
un lado, es importante compartir los resultados de forma temprana, de modo
que los responsables de las decisiones del programa puedan incorporar cam-
bios y adoptar decisiones de políticas, como aumentar la escala de la inter-
vención (o disminuirla) o ajustar los componentes del programa para mejorar
el uso de los recursos y alcanzar un mayor impacto. Por otro lado, hay que
hacer una advertencia contra el riesgo de compartir resultados demasiado
preliminares basados en un análisis parcial o incompleto, dado que dichos
resultados podrían estar sujetos a cambios. Su divulgación podría crear
expectativas entre el personal del programa y precipitar decisiones de las
políticas aún no maduras que podrían ser caras de revertir en el futuro. Por lo
tanto, debería buscarse un equilibrio adecuado de puntualidad y completitud
Cuadro 14.1 Participación de grupos clave en el impacto en las políticas: por qué, cuándo y cómo
Personal y Expertos en desarrollo,

administradores del Responsables de las académicos, grupos de
programa políticas de alto nivel la sociedad civil
¿Por qué? Se pueden convertir en Necesitan entender por qué Necesitan evidencia del
defensores de la el tema es importante, impacto de los programas
evaluación de impacto y cómo la evaluación de de desarrollo con el fin de
del uso de evidencia. impacto puede ayudarles a tomar decisiones, diseñar
tomar mejores decisiones nuevos programas y llevar
y, en definitiva, lo que la a cabo investigación que
evidencia les dice acerca de contribuya a mejorar vidas.
hacia dónde deberían
orientarse sus energías (y el
financiamiento disponible).
¿Cuándo? De manera temprana, De manera temprana, al De acuerdo con el programa
incluso antes de que se definir las preguntas de la que se evalúe, los grupos
implemente el programa, evaluación y antes de que de la sociedad civil y los
y con interacciones esta comience y, de expertos del desarrollo
continuas y frecuentes. nuevo, cuando se cuente pueden ser importantes
Los datos de línea de base con los resultados finales. defensores locales. La
se pueden utilizar para Es importante que los información debería
elaborar la intervención a responsables de las divulgarse una vez que se
la medida. Son los políticas públicas cuente con los resultados
primeros en comentar los comprendan por qué se definitivos y estos hayan
resultados de la lleva a cabo una evaluación sido aprobados por el
evaluación. de impacto y cómo personal del programa y los
pueden ayudarles los responsables de las
resultados. políticas públicas.
¿Cómo? Introducir el rol de la Están presentes en los Los eventos y foros
evidencia en la elaboración talleres nacionales, y públicos, como seminarios
de las políticas públicas en buscan reuniones directas y conferencias, documentos
un taller para que los con el personal de nivel de trabajo, artículos en los
administradores del superior para explicar el periódicos, cobertura en los
programa participen en el trabajo. Instan a los medios y materiales
diseño de la evaluación. encargados del programa, al basados en la red, son
Efectuar un seguimiento personal técnico y a los medios para llegar a estas
con reuniones en responsables de las políticas audiencias.
momentos clave: de nivel medio a mantener
inmediatamente después a los ministerios informados
de la recopilación de datos acerca de la evaluación de
de línea de base, luego de impacto. Cuando la
recopilar resultados evidencia ha acabado, se
intermedios y al final. presenta a los responsables
de las políticas de nivel
superior. Cuando sea
posible, se incluyen análisis
de costo-beneficio o costo-
efectividad y sugerencias
para los próximos pasos.

en la divulgación inicial de resultados con el equipo del proyecto. Esto suele
cumplirse cuando el equipo de evaluación ha llevado a cabo un análisis
exhaustivo y verificaciones de robustez, pero antes de que se formulen los
resultados, la interpretación y las recomendaciones finales.
Normalmente, al personal y a los encargados del programa les interesarán
tanto los detalles técnicos de la metodología de evaluación como también el
análisis y los elementos particulares de las conclusiones y recomendaciones
presentadas al comienzo. El debate inicial sobre los resultados que se realice
con este grupo puede prestarse para reuniones de estilo taller, con presenta-
ciones del equipo de evaluación, y disponiendo de tiempo suficiente para
responder a preguntas y comentarios de todas las partes. Este debate inicial
suele enriquecer el análisis final, fundamenta la interpretación de resultados
y contribuye a elaborar a la medida las recomendaciones finales, de modo
que sean más idóneas para orientar los objetivos de las políticas del pro-
grama. Los debates iniciales con el personal del programa y los administra-
dores constituyen una buena oportunidad para intercambiar ideas sobre
resultados inesperados o potencialmente polémicos, y proponer recomen-
daciones de políticas públicas y respuestas anticipándose a la divulgación
pública de la evaluación de impacto.
Los resultados negativos (incluido el encontrar un impacto nulo) o impre-
vistos pueden ser decepcionantes para el personal y los administradores del
programa que han invertido tiempo y energía considerables, pero también
contribuyen a la función crítica de instar a que se reformulen las políticas.
Por ejemplo, si se descubre que el programa no ha alcanzado su objetivo pri-
mario debido a dificultades en la implementación, se pueden adoptar medi-
das para abordar esos ámbitos y el programa mejorado se puede volver a
evaluar más tarde. Si el programa no produce impactos en el corto plazo o lo
hace solamente en un subconjunto de resultados, y hay motivos para creer
que se requiere más tiempo para alcanzar los resultados finales, la evaluación
puede presentar y defender los resultados iniciales y se pueden planificar
otras medidas en una fecha futura. Por último, si está claro que la interven-
ción no consigue generar los beneficios previstos o está provocando un per-
juicio inesperado, los administradores del programa pueden tomar medidas
inmediatas para detener la intervención o reformular su diseño. De esta
manera, cuando se divulgan los resultados de la evaluación, los responsables
de las políticas a cargo del programa pueden anunciar medidas correctivas y
formular respuestas con antelación, anticipándose a las preguntas difíciles
que surgirán en los debates de políticas o en los medios.
Responsables de las políticas de alto nivel. El segundo grupo clave son los
responsables de las políticas de alto nivel, que adoptarán decisiones sobre la
base de los resultados de las evaluaciones de impacto como, por ejemplo, si
ampliar, mantener o disminuir el financiamiento para una intervención.
En este grupo se incluye el Poder Legislativo nacional, los presidentes y pri-
meros ministros, ministros y secretarios principales, juntas de directores
y/o donantes. Este grupo de partes interesadas suele contar con los resulta-
dos de la evaluación una vez que estos son definitivos y han sido revisados
por el personal y los administradores del programa, y aprobados por exper-
tos técnicos externos. En esta etapa, el equipo de evaluación tendrá que cen-
trarse en comunicar los resultados y las recomendaciones clave de manera
asequible; los detalles técnicos de la evaluación tienen una importancia
secundaria. A los responsables de las políticas de alto nivel les interesará la
traducción de los impactos en valores económicamente significativos
mediante análisis de costo-beneficio, o una comparación con las interven-
ciones alternativas a través de análisis de costo-efectividad. Estos paráme-
tros contribuirán a informar a los responsables de las decisiones acerca de si
el programa es una manera fiable de invertir recursos limitados para impul-
sar un objetivo de desarrollo importante. A los responsables de las políticas
de alto nivel les puede interesar utilizar los resultados para promover su
agenda política, como presionar a favor (o en contra) de una determinada
política pública que la evaluación apoya (o no apoya). El equipo de evalua-
ción puede colaborar con los expertos en comunicación para asegurar que
los resultados y las recomendaciones relacionadas estén correctamente
interpretados y que los mensajes de la estrategia de comunicación sigan ali-
neados con las conclusiones de la evaluación.
La comunidad profesional. El tercer grupo clave para alcanzar un impacto
amplio de las políticas son los consumidores de la evaluación fuera del
ámbito directo del programa y/o del contexto del país. Este grupo heterogé-
neo comprende la comunidad profesional en sectores próximos a la evalua-
ción, e incluye a los profesionales del desarrollo, académicos, la sociedad
civil y los formuladores de políticas de otros países. Los profesionales del
desarrollo más allá del programa específico pueden interesarse en utilizar
los resultados de la evaluación para fundamentar el diseño de programas
nuevos o existentes. A estos profesionales les interesarán tanto los detalles
de la evaluación (métodos, resultados, recomendaciones) como las leccio-
nes operativas y las recomendaciones que puedan contribuir a la implemen-
tación de sus propios proyectos de forma más efectiva. Por otro lado, puede
que a la comunidad académica le interese más la metodología, los datos y los
hallazgos empíricos de la evaluación.
En la sociedad civil destacan dos grupos clave, a saber: los medios y los
participantes en el programa. Informar al público de los resultados de una
evaluación a través de los medios de comunicación puede desempeñar un rol
clave para la rendición de cuentas en materia de gasto público, obtener el
apoyo público para las recomendaciones de la evaluación y llevar a cabo polí-
ticas efectivas. Esto es particularmente cierto en cuanto a las políticas nuevas
e innovadoras, cuyo resultado era inicialmente incierto u objeto de polémicas
en el debate de políticas. Si la evaluación arroja una luz empírica sobre lo que
hasta ahora había sido un debate en gran parte teórico o ideológico, puede
convertirse en un poderoso instrumento para el cambio de políticas.
Por último, los esfuerzos de divulgación deberían incluir a quienes parti-
cipan del programa. Los participantes han invertido su tiempo y energía en
el programa y puede que hayan dedicado un tiempo considerable a propor-
cionar información para los fines de la evaluación. Asegurar que tengan
acceso a los resultados de la evaluación y que permanezcan informados a
propósito de ello es un gesto pequeño pero significativo que puede contri-
buir a mantener su interés en el programa y a su disposición a tomar parte
en futuras evaluaciones.
Divulgación de los resultados
A continuación, se aborda una variedad de estrategias que se pueden consi-

derar para informar a estos grupos clave y generar un impacto en las políti-
cas. Idealmente, las primeras etapas de la planificación de la evaluación
incluirán una estrategia de divulgación o de impacto en las políticas. Esta
estrategia debería acordarse desde el comienzo, y debería especificar clara-
mente el objetivo de la evaluación para las políticas (por ejemplo, amplia-
ción de un modelo de intervención más costo-efectivo), el público clave al
que la evaluación intenta llegar, las estrategias de comunicación usadas y un
presupuesto para realizar actividades de divulgación. Si bien el formato y
contenido de las actividades y de los productos de la divulgación variarán
según cada caso, en el resto de este capítulo se presentan algunas sugeren-
cias y orientaciones generales. El recuadro 14.2 incluye una lista de algunos
instrumentos de extensión y divulgación.
Los informes suelen ser el primer medio para divulgar el conjunto com-
pleto de resultados de la evaluación. Se recomienda que estos informes ten-
gan una extensión moderada, entre 30 y 50 páginas, e incluyan un resumen
de una página, o menos, y un resumen ejecutivo de dos a cuatro páginas con
los principales resultados y recomendaciones. Los detalles técnicos, la
documentación relacionada y el análisis de apoyo como pruebas de robustez
y falsificación se pueden presentar en anexos o apéndices.
La publicación de una evaluación de impacto como documento de tra-
bajo académico y/o artículo en una revista científica arbitrada puede ser una
medida final laboriosa pero muy provechosa para presentar los resultados
de la evaluación. Las rigurosas revisiones de pares requeridas para el pro-
ceso de publicación proporcionarán una retroalimentación valiosa que
mejorará el análisis y la interpretación de los resultados, y la publicación
Recuadro 14.2: Instrumentos de extensión y divulgación
A continuación se listan algunos ejemplos de medios para divulgar las evaluaciones de
impacto:
• Exposiciones sobre el programa y resultados de la evaluación.
• Videos donde los beneficiarios dan su opinión del programa y revelan cómo afecta sus
vidas.
• Breves notas informativas en las cuales se explica la evaluación y se resumen las reco-
mendaciones de políticas.
• Blogs de los investigadores y responsables de las políticas que explican la importancia de
la evaluación.
• Informes completos, después de recibir los resultados finales, con exhaustivos resúme-
nes ejecutivos para asegurar que los lectores entiendan rápidamente las principales
conclusiones.
• Invitaciones para los medios que permitan a los periodistas ver el programa en acción y
los resultados del informe.
puede transmitir una clara señal a los responsables de las políticas sobre la
calidad y credibilidad de los resultados de una evaluación.
Sobre la base de la estrategia de divulgación acordada, los informes y
documentos se pueden publicar en diversos medios, entre ellos, el sitio web
del programa, el sitio web de la institución evaluadora, como parte de una
serie de documentos de trabajo, revistas académicas arbitradas y libros.
Si bien los informes de evaluación y los documentos académicos sirven
como fundamento para la estrategia de divulgación, su alcance entre un
público más amplio fuera de la comunidad profesional y académica puede ser
limitado debido a su extensión y a su lenguaje técnico. Puede que el equipo de
evaluación, quizás en colaboración con los expertos en comunicación, consi-
dere útil producir artículos breves, escritos al estilo de un relato o con un estilo
periodístico, con un lenguaje claro y sencillo para llegara públicos más amplios.
Se pueden dar a conocer artículos breves bajo la forma de notas informativas
de políticas, boletines e infografías. En estas publicaciones, será particular-
mente útil eliminar la jerga técnica y traducir los resultados en representacio-
nes visualmente atractivas, con imágenes, esquemas y gráficos (recuadro 14.3).
Los equipos de evaluación pueden generar un conjunto de presentacio-
nes que acompañen a los informes escritos y los artículos breves. Las
presentaciones deberían elaborarse a la medida del público específico. Un
buen punto de partida es producir una presentación técnica para el equipo
del proyecto y el público académico, y otra presentación más breve y menos

Recuadro 14.3: La divulgación efectiva de las evaluaciones de
impacto
Diversas publicaciones exponen los resultados de las evaluaciones de impacto en un
formato accesible y sencillo. Entre ellos se incluyen dos actualizaciones con un foco regional.
• Los resultados de la evaluación de impacto de programas en América Latina y el Caribe
se recogen en el Panorama de la efectividad en el desarrollo (DEO, por sus siglas en
inglés), publicado anualmente por la Oficina de Planificación Estratégica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo (BID). Los resultados se resumen
en artículos breves, de fácil lectura, que incluyen resúmenes infográficos de una página
que explican la pregunta fundamental de la evaluación de impacto, los métodos, resulta-
dos y recomendaciones de políticas, utilizando gráficos e íconos que permiten que los
lectores entiendan los mensajes clave de forma muy rápida e intuitiva. El DEO de 2014
incluye los resultados de evaluaciones de impacto de programas tan diversos como el
turismo en Argentina, la capacitación laboral en República Dominicana, la productividad
agrícola en Bolivia y las orquestas juveniles en Perú.
• Africa Impact Evaluation Update, del Banco Mundial, recoge la última evidencia de la región.
En 2013, esta publicación se centró en el género y en 2014, en la agricultura y la tierra.
Fuentes: http://deo.iadb.org y http://www.worldbank.org.
técnica para los responsables de las políticas y la sociedad civil. Si bien las
principales conclusiones y recomendaciones para las políticas serán las mis-
mas, la estructura y el contenido de estas dos presentaciones tendrán dife-
rencias importantes. La presentación técnica debería centrarse en afianzar
la credibilidad de los resultados mediante una exposición de los métodos de
evaluación, los datos y el análisis, antes de llegar a los resultados y recomen-
daciones. Una presentación dirigida a los responsables de las políticas debe-
ría poner de relieve el problema del desarrollo que la intervención se
propone abordar y las implicaciones prácticas de las conclusiones, y tratar
de forma más superficial los detalles técnicos.
Para aprovechar el cada vez mayor acceso a Internet de los países en
desarrollo y las alternativas de bajo costo para producir multimedia, los
equipos de evaluación también pueden contemplar una gama de medios
para divulgar las conclusiones de la evaluación, entre ellos: los sitios web o
las grabaciones en audio y video. Los videoclips de corta duración pueden
ser un medio poderoso para transmitir ideas complejas a través de imáge-
nes y sonido, dejando que la historia de la evaluación se despliegue de una
manera que sea más rápida y más plenamente comprensible que la que
utilizan los típicos medios impresos (recuadro 14.4).

Por último, armado con una variedad de productos de divulgación, el
equipo de evaluación debe mostrarse proactivo en la divulgación de estos
productos a los consumidores dentro del programa, del gobierno y de la
comunidad profesional más amplia, de modo que la información llegue a los
usuarios previstos y pueda ser asimilada en el proceso de toma de decisiones
y el debate de políticas públicas. El proceso de divulgación se lleva a cabo
mediante reuniones presenciales entre el equipo de evaluación y el adminis-
trador del programa, a través del cabildeo con responsables de las políticas
de alto nivel, así como también de presentaciones en seminarios y conferen-
cias donde los académicos y miembros de la comunidad profesional se
reúnen para informarse acerca de los últimos avances en la investigación y
la evaluación del desarrollo, mediante entrevistas y programas de noticias
en la radio y la televisión y, actualmente cada vez más, a través de Internet.
Los blogs y las redes sociales en particular pueden ser maneras costo-
efectivas de llegar a grandes cantidades de usuarios potenciales y para
orientar a los lectores hacia un conjunto de productos disponibles relacio-
nados con una determinada evaluación (recuadro 14.5). Si bien las estrate-
gias particulares variarán según cada caso, se recomienda una vez más
planificar y presupuestar los medios y las actividades de divulgación con
antelación, de modo que los resultados de la evaluación puedan llegar a sus
públicos previstos de manera rápida y efectiva, de modo que así se pueda
maximizar el impacto en las políticas.
Recuadro 14.4: Divulgación de las evaluaciones de impacto

en línea
A continuación, se muestran algunos ejemplos destacados de divulgación en línea de los
resultados de una evaluación de impacto:
• La Iniciativa Internacional para la Evaluación de Impacto (3ie) organiza la evidencia de las
evaluaciones de impacto por sector, e incluye notas informativas de política, revisiones
sistemáticas y mapas de brechas de evidencia.
• El Abdul Latif Jameel Poverty Action Lab (J-Pal) divulga evidencia de evaluaciones de
impacto realizadas por investigadores asociados, y añade notas informativas de políticas,
análisis de costo-efectividad y enlaces con documentos académicos.
• La Iniciativa de Desarrollo de la Evaluación de Impacto (DIME, por sus siglas en inglés)
del Banco Mundial presenta notas breves, boletines e informes con los resultados de las
evaluaciones de impacto de los proyectos de dicha institución.
• El Fondo Estratégico para la Evaluación de Impacto (SIEF) del Banco Mundial incluye
videos, notas breves y entrevistas.

Recuadro 14.5: Blogs de evaluación de impacto
Esta lista contiene ejemplos de blogs que recogen con regularidad los resultados de las
evaluaciones de impacto:
• El blog de Impacto en el Desarrollo del Banco Mundial.
• El blog de Efectividad en el Desarrollo del BID.
• El blog de Innovations for Poverty Action.
Otros recursos
• Para material de apoyo relacionado con el libro y para hipervínculos de

más recursos, se recomienda consultar el sitio web de la Evaluación de
Impacto en la Práctica (http://www.worldbank.org/ieinpractice).
• La Iniciativa Internacional para la Evaluación de Impacto (3ie) y el
Instituto de Desarrollo de Ultramar (ODI, por sus siglas en inglés) han
desarrollado un kit de herramientas de impacto de políticas en línea con
el fin de contribuir a divulgar y utilizar la evidencia de las evaluaciones de
impacto en la toma de decisiones.

Cuarta parte
CÓMO OBTENER
DATOS PARA UNA
EVALUACIÓN DE
IMPACTO
La cuarta parte de este libro proporciona orientación sobre cómo obtener datos
para una evaluación de impacto, lo que comprende la elección de la muestra y
cómo encontrar fuentes de datos adecuadas.
El capítulo 15 trata de cómo extraer una muestra de una población de interés

y cómo llevar a cabo cálculos de potencia para determinar el tamaño adecuado
de la muestra de la evaluación de impacto. El capítulo se centra en la des-
cripción de la idea fundamental de los muestreos y los cálculos de potencia.
También destaca los elementos que los responsables de las políticas tienen que
proporcionar al equipo de investigación o a los expertos técnicos responsables
de elaborar los muestreos y los cálculos de potencia.
En el capítulo 16 se analizan las diversas fuentes de datos que pueden utilizar

las evaluaciones de impacto. Allí se destaca cuándo se pueden usar las fuentes
de los datos existentes, entre ellos los datos administrativos. Dado que nume-
rosas evaluaciones requieren la recopilación de nuevos datos, en el capítulo se
abordan los pasos necesarios para recopilar los datos de una nueva encuesta.
Esto implica determinar quién recopilará los datos, desarrollar instrumentos de
recopilación de datos y realizar pruebas piloto, llevar a cabo el trabajo de campo
y de control de calidad, y procesar y almacenar datos.
En el capítulo 17 se presentan conclusiones de la totalidad del libro. Allí se revisan

brevemente los elementos centrales de una evaluación de impacto bien dise-
ñada, y se proponen algunos consejos para mitigar los riesgos habituales en la
realización de una evaluación de impacto. También se ofrecen algunas perspecti-
vas del reciente aumento del uso de evaluaciones de impacto y otras iniciativas
de institucionalización relacionadas.
CAPÍTULO 15
La elección de una muestra
El muestreo y los cálculos de potencia
Una vez que se ha elegido el método para seleccionar el grupo de compara-

ción y estimar el contrafactual, uno de los próximos pasos consiste en deter-
minar qué datos se precisarán, y la muestra necesaria para estimar con
exactitud las diferencias de los resultados entre el grupo de tratamiento y el
grupo de comparación. En este capítulo, se analizará cómo se puede extraer
una muestra de una población de interés (muestreo) y cómo se puede deter-
minar el tamaño que debe tener la muestra para proporcionar estimaciones
precisas del impacto del programa (cálculos de potencia). El muestreo y
los cálculos de potencia requieren habilidades técnicas específicas y se les
suelen encargar a un experto especializado. En este capítulo, se describen
los elementos básicos de la realización de muestreos y cálculos de potencia,
y se destacan los elementos que los responsables de las políticas deben
poder proveer a los expertos técnicos.
Elaboración de una muestra
El muestreo es el proceso de extraer unidades de una población de interés

para estimar las características de la población. Suele ser necesario, dado que,
normalmente, no es posible observar y medir directamente los resultados
para toda la población de interés. Por ejemplo, si se desea conocer la altura
291
promedio de los niños menores de 2 años en un país, sería muy difícil, costoso
y lento medir a todos los niños de la población. En cambio, se puede utilizar
una muestra de niños extraída de la población para inferir las características
promedio de esa población (gráfico 15.1).
El proceso mediante el cual se extrae una muestra de la población de
interés es crucial. Los principios de muestreo sirven de orientación para
extraer muestras representativas. En la práctica, hay que seguir tres grandes
pasos para extraer una muestra:
1. Determinar la población de interés.
2. Definir un marco muestral.
3. Extraer el número de unidades requeridas por los cálculos de potencia
del marco muestral.
En primer lugar, se debe definir claramente la población de interés. Esto
requiere especificar con precisión la unidad en la población de interés para
la cual se medirán los resultados, y detallar con claridad la cobertura geo-
gráfica o cualquier otro atributo pertinente que caracterice a la población
de interés. Por ejemplo, si se está gestionando un programa de desarrollo
infantil temprano, puede que resulte de interés medir el impacto del pro-
grama en los resultados cognitivos de los niños de entre 3 y 6 años en todo
el país, solo para los niños que viven en zonas rurales o solo para los niños
matriculados en preescolar.
Gráfico 15.1 Uso de una muestra para inferir las características promedio de
una población de interés
Población de interés
Inferir características
de la población sobre
la base la muestra
Muestra

En segundo lugar, una vez que se haya definido la población de interés,
se debe establecer un marco muestral. El marco muestral es la lista más
exhaustiva que se puede obtener de las unidades en la población de interés.
Idealmente, el marco muestral debería coincidir exactamente con la
población de interés. Un censo totalmente actualizado de la población de
interés constituiría un marco muestral ideal. En la práctica, se suelen utili-
zar como marcos muestrales las listas existentes, como los censos de pobla-
ción, los censos de instalaciones o los registros de inscritos.
Se requiere un marco muestral adecuado para asegurar que las conclu- Concepto clave
siones a las que se llegue mediante el análisis de una muestra se puedan Un marco muestral es
generalizar para el conjunto de la población. De hecho, un marco muestral la lista más exhaustiva
que no coincida exactamente con la población de interés crea un sesgo de que se puede obtener
cobertura, como lo ilustra el gráfico 15.2. Si se produce un sesgo de cober- de las unidades en la
población de interés.
tura, los resultados de la muestra no tienen validez externa para el conjunto
Se produce un sesgo
de la población de interés sino únicamente para la población incluida en el de cobertura cuando
marco muestral. La medida en que las estadísticas calculadas a partir de la el marco muestral no
muestra se pueden generalizar a toda la población de interés depende de la corresponde
magnitud del sesgo de cobertura, es decir: de la falta de coincidencia entre el perfectamente a la
población de interés.
marco muestral y la población de interés.
Los sesgos de cobertura constituyen un riesgo, y la creación de marcos
muestrales requiere un esfuerzo riguroso. Por ejemplo, los datos del censo
pueden contener la lista de todas las unidades de una población. Sin
embargo, si ha transcurrido demasiado tiempo entre el censo y el momento
Gráfico 15.2 Un marco muestral válido cubre el conjunto de la población

de interés
Marco muestral
válido
Marco muestral
no válido
Población
de interés
La elección de una muestra 293

en que se recopilaron los datos de la muestra, el marco muestral ya no
estará actualizado. Además, los datos del censo pueden no contener sufi-
ciente información sobre atributos específicos para construir un marco
muestral. Si la población de interés está compuesta por niños que asisten a
nivel inicial, y el censo no incluye datos sobre la matrícula preescolar, se
Concepto clave requerirían datos complementarios de matrícula o registros de los estable-
El muestreo es el cimientos educativos.
proceso por el cual las Una vez identificada la población de interés y un marco muestral, es
unidades se extraen de
necesario elegir un método para elaborar la muestra. Se pueden utilizar
un marco muestral. El
muestreo probabilístico diversos procedimientos alternativos.
asigna una probabili- Los métodos de muestreo probabilístico son los más rigurosos, dado
dad bien definida a que asignan una probabilidad bien definida para cada unidad del marco
cada unidad del marco muestral. Los tres principales métodos de muestreo probabilístico son los
muestral. siguientes:
 Muestreo aleatorio. Todas las unidades de la población tienen exacta-
mente la misma probabilidad de ser extraídas.1
 Muestreo aleatorio estratificado. La población se divide en dos grupos
(por ejemplo, hombres y mujeres) y se lleva a cabo un muestreo aleatorio
en cada grupo. Como consecuencia, todas las unidades en cada grupo
(o estrato) tienen la misma probabilidad de ser extraídas. Siempre y
cuando todos los grupos sean lo suficientemente grandes, el muestreo
estratificado permite formular inferencias acerca de los resultados
no solo a nivel de la población, sino también dentro de cada grupo.
El muestreo estratificado es útil cuando se quiere elaborar una muestra
de los subgrupos pequeños en la población (por ejemplo, las minorías)
con el fin de estudiarlos más en detalle. La estratificación es esencial para
las evaluaciones que buscan comparar los impactos del programa entre
esos subgrupos.
 Muestreo de clusters. Las unidades se agrupan en clusters (conglomerados)

y se extrae una muestra aleatoria de los mismos. Posteriormente, o todas
las unidades en esos clusters constituyen la muestra, o bien se extrae un
cierto número de unidades del cluster de forma aleatoria. Esto significa
que cada cluster tiene una probabilidad bien definida de ser seleccionado y
las unidades dentro de un cluster seleccionado también tienen una proba-
bilidad bien definida de ser extraídas.
En el contexto de una evaluación de impacto, el procedimiento para
extraer una muestra a menudo está determinado por las reglas de elegibili-
dad del programa que se evalúa. Como se verá en el debate sobre el tamaño
de la muestra, si la unidad viable más pequeña de implementación es
más grande que la unidad de observación, la asignación aleatoria de los
beneficios creará clusters. Por este motivo, el muestreo de clusters aparece a
menudo en los estudios de evaluaciones de impacto.
El muestreo no probabilístico puede provocar graves errores de muestreo.
Por ejemplo, supóngase que se emprende una encuesta nacional pidiendo a
un grupo de entrevistadores que recopilen datos de los hogares de las
viviendas más próximas a la escuela en cada pueblo. Cuando se utiliza un
procedimiento de muestreo no probabilístico de este tipo, es probable que
la muestra no sea representativa del conjunto de la población de interés.
Concretamente, se producirá un sesgo de cobertura, dado que las viviendas
remotas no serán estudiadas.
Es necesario prestar mucha atención al marco muestral y al procedi-
miento de muestreo para establecer si los resultados obtenidos de una
determinada muestra se pueden generalizar al conjunto de la población de
interés. Aun cuando el marco muestral tenga perfecta cobertura y se utilice
un procedimiento de muestreo probabilístico, los errores de no muestreo
también pueden afectar la validez interna y externa de la evaluación de
impacto. Los errores de no muestreo se tratan en el capítulo 16. Por último,
en ocasiones se observa una confusión entre el muestreo aleatorio y la asig-
nación aleatoria. En el recuadro 15.1 se explica con claridad que ambos son
muy diferentes.
En el resto de este capítulo, se examina la importancia que entraña el
tamaño de la muestra para la precisión de las evaluaciones de impacto.
Como se verá con mayor exactitud, se requieren muestras relativamente
Recuadro 15.1: El muestreo aleatorio no es suficiente para la

A veces se produce una confusión entre el obtendría una muestra aleatoria de partici-
muestreo aleatorio y la asignación aleatoria. pantes y una muestra aleatoria de no partici-
¿Qué pasaría si alguien comenta que está pantes. Si los participantes y los no
implementando una evaluación de impacto participantes tienen diferentes característi-
entrevistando a una muestra aleatoria de cas, también lo tendrá la muestra de partici-
participantes y no participantes? Supóngase pantes y no participantes. El muestreo
que observa a un grupo de individuos que aleatorio no hace que dos grupos no compa-
participan de un programa de empleo y a un rables sean comparables y no proporciona
grupo de individuos que no participan en el validez interna para la evaluación de impacto.
programa. ¿Qué pasaría si se tomara una Este es el motivo por el que el muestreo
muestra aleatoria de cada uno de estos dos aleatorio no es suficiente para la evaluación
grupos? El primer gráfico ilustra que se de impacto.

Recuadro 15.1: El muestreo aleatorio no es suficiente para la evaluación de impacto (continúa)
Gráfico B15.1.1 Muestreo aleatorio entre grupos no comparables de participantes y

no participantes
Participantes de un programa No participantes
Como debería quedar claro a partir del comparación que no lo será. El proceso de
debate que se desarrolla en la segunda aleatorización de un programa que se exhibe
parte, la asignación aleatoria de los beneficios en el gráfico B15.1.2 es diferente del proceso
de un programa es diferente del muestreo de muestreo aleatorio descrito en el gráfico
aleatorio. El proceso de asignación aleatoria B15.1.1. Como se señaló en la segunda
parte de una población de interés elegible y parte, cuando la asignación aleatoria está
utiliza un procedimiento de aleatorización bien implementada, contribuye a la validez
para asignar las unidades (que normalmente interna de la evaluación de impacto. El
son personas o grupos de personas, como muestreo aleatorio puede ser útil para
niños en una escuela) de la población asegurar la validez externa, en la medida en
elegible a un grupo de tratamiento que será que la muestra se extrae aleatoriamente de
objeto de una intervención, y a un grupo de la población de interés.

Recuadro 15.1: El muestreo aleatorio no es suficiente para la evaluación de impacto (continúa)
Gráfico B15.1.2 Asignación aleatoria de los beneficios de un programa entre un

grupo de tratamiento y un grupo de comparación
Población elegible
Comparación
Grupo de tratamiento Grupo de comparación

(participantes del programa) (no participantes del programa)
más grandes para obtener estimaciones precisas de las características de la

población. También se requieren muestras más grandes para poder obtener
estimaciones precisas de las diferencias entre grupos de tratamiento y de
comparación, es decir, para estimar el impacto de un programa.
La decisión sobre el tamaño de la muestra de

una evaluación de impacto: cálculos de potencia
Como ya se señaló, el muestreo describe el proceso para elaborar una

muestra de unidades de una población de interés a fin de estimar las carac-
terísticas de esa población. Las muestras más grandes dan estimaciones más
precisas de las características de la población. ¿De qué tamaño, exacta-
mente, tienen que ser las muestras para una evaluación de impacto?

Los cálculos para determinar el tamaño de la muestra se denominan cálcu-
los de potencia. Aquí se analiza la idea básica que subyace a los cálculos de
potencia a partir del caso más sencillo, a saber: una evaluación realizada
utilizando un método de asignación aleatoria, para probar la efectividad de
un programa en relación con un grupo de comparación que no recibe una
intervención, y suponiendo que el incumplimiento no es un problema. 2
Al final del capítulo, se abordan brevemente otras consideraciones más allá
de este caso sencillo.
El fundamento de los cálculos de potencia
Los cálculos de potencia indican el tamaño mínimo de la muestra que es

necesario para llevar a cabo una evaluación de impacto y para responder de
forma convincente a la pregunta de interés para las políticas. Concretamente,
los cálculos de potencia se pueden utilizar para:
 Evaluar si las bases de datos existentes son suficientemente grandes
para llevar a cabo una evaluación de impacto.
 Evitar recopilar pocos datos. Si la muestra es demasiado pequeña, puede
que no sea posible detectar un impacto positivo –aunque existiera– y, por
lo tanto, se puede llegar a la conclusión de que no ha tenido efecto. Esto
podría provocar una decisión de política para eliminar el programa, lo
cual sería perjudicial.
 Contribuir a tomar decisiones a propósito del tamaño adecuado de la
muestra. Los tamaños más grandes de la muestra proporcionan estima-
ciones más precisas de los impactos del programa, pero la recopilación de
información puede ser muy onerosa. Los cálculos de potencia proporcio-
Concepto clave
nan insumos clave para evaluar el equilibrio entre los costos requeridos
Los cálculos de para recopilar más datos y los beneficios de una mayor precisión en la
potencia proporcionan evaluación de impacto.
un indicador de la
Los cálculos de potencia constituyen una indicación de la muestra más
muestra más pequeña
con la que es posible pequeña (y el presupuesto más bajo) con el que es posible medir el
estimar con precisión impacto de un programa; es decir, la muestra más pequeña que permitirá
el impacto de un detectar diferencias significativas en los resultados entre los grupos de
programa; a saber, la tratamiento y comparación. Por lo tanto, los cálculos de potencia son
muestra más pequeña
cruciales para determinar cuáles son los programas que tienen éxito y
que permitirá detectar
diferencias significati-
cuáles no.
vas en los resultados Como se señaló en el capítulo 1, la pregunta básica de la evaluación de
entre los grupos de impacto es: ¿Cuál es el impacto o efecto causal de un programa en un resul-
tratamiento y tado de interés? La sencilla hipótesis incorporada en esa pregunta puede ser
comparación. reformulada de la siguiente manera: ¿El impacto del programa es diferente
de cero? En el caso de la asignación aleatoria, responder a esta pregunta
requiere dos pasos:
1. Estimar los resultados promedio para los grupos de tratamiento y
comparación.
2. Valorar si existe una diferencia entre el resultado promedio del grupo de
tratamiento y el resultado promedio del grupo de comparación.
A continuación, se analizará cómo calcular los resultados promedio para
cada grupo, y luego, cómo comprobar si hay una diferencia entre los dos
grupos.
Estimación de resultados promedio para los grupos de

tratamiento y comparación
Supóngase que se debe estimar el impacto de un programa de nutrición en

el peso de los niños a los 2 años, y que hay 200.000 niños elegibles para el
programa. Del total de niños elegibles, 100.000 fueron asignados de forma
aleatoria para participar en el programa. Los 100.000 niños elegibles que no
fueron asignados aleatoriamente al programa sirven como grupo de compa-
ración. Como primer paso, habrá que estimar el peso promedio de los niños
que participaron y de los que no participaron.
Para determinar el peso promedio de los niños que participaron, se
podría pesar a cada uno de los 100.000 niños participantes y luego calcu-
lar el promedio. Desde luego, sería un procedimiento sumamente costoso.
Afortunadamente, no es necesario pesar a cada niño. El promedio se
puede estimar utilizando el peso promedio de una muestra extraída de la
población de los niños que participan.3 Cuantos más niños haya en
la muestra, más cerca estará el promedio estimado del promedio real.
Cuando una muestra es pequeña, el peso promedio constituye una esti-
mación muy imprecisa del promedio en la población. Por ejemplo,
una muestra de dos niños no dará una estimación precisa. En cambio, una
muestra de 10.000 niños producirá una estimación más precisa mucho
más cercana al verdadero peso promedio. En general, cuantas más obser-
vaciones haya en la muestra, más precisas serán las estadísticas obtenidas
de la muestra (gráfico 15.3).4
Por lo tanto, se sabe que con una muestra más grande se obtendrá una
imagen más exacta de la población de los niños que participan. Lo mismo
ocurrirá con los niños que no participan: a medida que crece el tamaño
de la muestra de estos últimos, se sabe con mayor precisión cómo es esa
población. ¿Pero por qué habría esto de importar? Si se puede estimar el
resultado promedio (el peso) de los niños que participan y no participan
Gráfico 15.3 Una muestra más grande tiene más probabilidades de
parecerse a la población de interés
Una muestra
pequeña
Población de interés
Una muestra
grande
con más precisión, también se podrá saber con más precisión la diferen-
cia de peso entre ambos grupos, y eso es el impacto del programa. Dicho
de otra manera, si solo se tiene una idea vaga del peso promedio de los
niños en los grupos de pequeños que participan (tratamiento) y que no
participan (comparación), ¿cómo se podrá tener una idea precisa de la
diferencia de peso de los dos grupos? La verdad es que no se puede. En
la siguiente sección, se examina esta idea de una manera ligeramente
más formal.
Comparación de los resultados promedio entre los grupos de

tratamiento y comparación
Una vez que se haya estimado el resultado promedio (el peso) del grupo
de tratamiento (los niños que participan seleccionados por asignación
aleatoria) y el grupo de comparación (los niños que no participan seleccio-
nados por asignación aleatoria), se puede proceder a determinar si los dos
resultados son diferentes. Esta parte está clara: se restan los promedios y
se calcula la diferencia. En términos estadísticos, la evaluación de impacto
pone a prueba la hipótesis nula (o por defecto) en contraste con la hipótesis
alternativa.

La hipótesis nula es la hipótesis de que el programa no tiene un impacto.
Se expresa como:
H0: impacto o diferencia entre el resultado en el grupo de tratamiento y
comparación = 0.
Ha: impacto o diferencia entre el resultado en el grupo de tratamiento y

comparación  0.
Imagínese que en un ejemplo de un programa de nutrición se comienza

con una muestra de dos niños tratados y dos niños de comparación. Con una
muestra tan pequeña, la estimación del peso promedio de los niños tratados
y los niños de comparación y, por lo tanto, la estimación de la diferencia
entre los dos grupos, no será demasiado fiable. Puede verificarse esto extra-
yendo diferentes muestras de dos niños del grupo de tratamiento y dos
niños del grupo de comparación. Lo que se encontrará es que el impacto
estimado del programa varía mucho.
Al contrario, imagínese que se comienza con una muestra de 1.000
niños tratados y 1.000 niños del grupo de comparación. Como se señaló, las
estimaciones del peso promedio de ambos grupos serán mucho más preci-
sas. Por lo tanto, la estimación de la diferencia entre los dos grupos también
lo será.
Por ejemplo, figúrese que se observa que el peso promedio en la muestra
de los niños del tratamiento (que participan) es de 12,2 kilos, y el promedio
de los niños en la muestra de comparación (que no participan) es de 12,0
kilos. La diferencia entre ambos grupos es de 0,2 kilos. Si estas cifras corres-
pondieran a muestras de dos observaciones cada una, no se sabría bien si el
impacto del programa es verdaderamente positivo porque esos 0,2 kilos
podrían deberse a la falta de precisión en las estimaciones. Sin embargo,
si estas cifras provienen de muestras de 1.000 observaciones cada una,
aumentaría la confianza de que se acercan bastante al verdadero impacto
del programa, que en este caso sería positivo.
Por lo tanto, la pregunta clave es: ¿Exactamente qué tamaño debe tener
la muestra para permitirnos saber que un impacto estimado positivo se
debe al verdadero impacto del programa y no a una falta de precisión en las
estimaciones?
Dos errores potenciales en las evaluaciones de impacto
Cuando se prueba si un programa tiene impacto, se pueden cometer dos

tipos de errores. Se comete un error de tipo I si una evaluación concluye que
el programa ha tenido impacto, cuando en realidad no lo ha tenido. En el
caso de la intervención hipotética en nutrición, esto ocurriría si usted, como
miembro del equipo de evaluación, concluyera que el peso promedio de los
Concepto clave niños de la muestra tratada es superior al de los niños de la muestra de com-
Un error de tipo I ocurre paración, aunque el peso promedio de los pequeños en las dos poblaciones
cuando una evaluación es, de hecho, igual y las diferencias observadas eran pura coincidencia. En
llega a la conclusión de este caso, el impacto positivo que se observó provendría únicamente de la
que un programa ha
falta de precisión de las estimaciones.
tenido impacto, cuando
en realidad no lo ha Un error de tipo II es el tipo contrario de error. Se produce cuando una
tenido. Un error de evaluación llega a la conclusión de que el programa no ha tenido impacto,
tipo II se produce cuando en realidad sí lo ha tenido. En el caso de la intervención en nutrición,
cuando una evaluación esto ocurriría si se concluyera que el peso promedio de los niños en las dos
llegará la conclusión de muestras es el mismo, aunque el peso promedio de los niños de la población
que el programa no ha
tenido impacto cuando,
de tratamiento es, de hecho, superior al de los niños del grupo de compara-
de hecho, sí lo ha ción. Una vez más, el impacto debería haber sido positivo, pero debido a
tenido. la falta de precisión de las estimaciones, se llega a la conclusión de que el
programa ha tenido un impacto cero.
Cuando se prueba la hipótesis de que un programa ha tenido impacto, los
estadísticos pueden limitar el tamaño de los errores de tipo I. La probabilidad
de un error de tipo I se puede establecer mediante un parámetro denominado
el nivel de significancia. El nivel de significancia suele fijarse en 5%, lo que
quiere decir que se puede tener un 95% de confianza en llegar a la conclusión
de que el programa ha tenido un impacto. Si a usted le preocupa mucho
cometer un error de tipo I, puede establecer un nivel de significancia menor:
por ejemplo, del 1%, de manera de tener un 99% de confianza de llegar a la
conclusión de que el programa ha tenido impacto.
Sin embargo, los errores de tipo II también preocupan a los responsables
de las políticas. Numerosos factores influyen en la probabilidad de cometer
un error de tipo II, pero el tamaño de la muestra es crucial. Si el peso pro-
medio de 50.000 niños tratados es el mismo que el peso promedio de 50.000
niños de comparación, es probable que se pueda concluir que el programa
no ha tenido impacto. Al contrario, si en una muestra de dos niños del grupo
de tratamiento estos pesan en promedio lo mismo que en el caso de la
Concepto clave
muestra de dos niños del grupo de comparación, es más difícil llegar a una
La potencia es la
conclusión fiable. ¿El peso promedio es similar porque la intervención
probabilidad de
detectar un impacto ha tenido impacto o porque los datos no son suficientes para comprobar la
cuando, de hecho, este hipótesis en una muestra tan pequeña? Las muestras grandes reducen
existe. Una evaluación la probabilidad de que solo se observe a los niños que pesan lo mismo por
de impacto tiene una una cuestión de (mala) suerte. En las muestras grandes, la diferencia de
alta potencia si hay un
promedios entre la muestra tratada y la muestra de comparación propor-
bajo riesgo de que no
se detecten los
ciona una mejor estimación de la verdadera diferencia de los promedios
impactos reales del entre todas las unidades tratadas y todas las unidades de comparación.
programa; es decir, La potencia (o potencia estadística) de una evaluación de impacto es la
de cometer un error probabilidad de detectar una diferencia entre los grupos de tratamiento y
de tipo II. comparación cuando esta de hecho existe. Una evaluación de impacto tiene
una alta potencia si hay un bajo riesgo de no detectar verdaderos impactos
del programa, es decir, de cometer un error de tipo II. Los ejemplos anterio-
res muestran que el tamaño de la muestra es un factor determinante crucial
de la potencia de una evaluación de impacto. Las secciones siguientes ilus-
trarán más detenidamente este punto.
Por qué los cálculos de potencia importan en

las políticas públicas
El objetivo del cálculo de potencia consiste en determinar el tamaño de una

muestra para evitar llegar a la conclusión de que un programa no ha tenido
impacto, cuando de hecho sí lo ha tenido (error de tipo II). La potencia de
una prueba es igual a 1 menos la probabilidad de un error de tipo II.
Una evaluación de impacto tiene una potencia elevada si es poco proba-
ble que se produzca un error de tipo II, lo que significa que es poco probable
que usted se sienta decepcionado por los resultados que muestran que el pro-
grama que se evalúa no ha tenido impacto, cuando en realidad sí lo ha tenido.
Desde una perspectiva de políticas, las evaluaciones de impacto con insu-
ficiente potencia, con una alta probabilidad de errores de tipo II, no solo
son inútiles sino que también pueden resultar muy onerosas. Una alta
probabilidad de un error de tipo II pone en peligro el potencial de una eva-
luación de impacto de identificar resultados estadísticamente significativos.
Por lo tanto, destinar recursos a evaluaciones de impacto sin suficiente
potencia es una inversión riesgosa.
Las evaluaciones de impacto sin suficiente potencia también pueden
tener graves consecuencias prácticas. Por ejemplo, en la intervención
hipotética en nutrición anteriormente mencionada, si se llegara a la
conclusión de que el programa no fue efectivo, aunque sí lo fue, los respon-
sables de las políticas podrían poner fin a un programa que, de hecho,
beneficia a los niños. Por lo tanto, es crucial minimizar la probabilidad de
errores de tipo II utilizando muestras lo suficientemente grandes en las
evaluaciones de impacto. Por esto es tan fundamental y pertinente llevar a
cabo cálculos de potencia.
Los cálculos de potencia paso a paso
A continuación, se explican los principios básicos de los cálculos de potencia,

con eje en el caso sencillo de un programa de asignación aleatoria. Para llevar a
cabo cálculos de potencia se requiere estudiar las siguientes cinco preguntas:
1. ¿El programa funciona mediante clusters?
2. ¿Cuál(es) es/son los indicadores de resultados?
3. ¿Cuál es el nivel mínimo de impacto que justificaría la inversión hecha en
la intervención?
4. ¿Cuál es la media de resultado para la población de interés? ¿Cuál es la
varianza subyacente del indicador de resultado?
5. ¿Cuáles son los niveles razonables de potencia estadística y de significancia
estadística en la evaluación que se lleva a cabo?
Cada una de estas preguntas es válida para el contexto específico de las
políticas en el que se ha decidido llevar a cabo la evaluación de impacto.
El primer paso en los cálculos de potencia consiste en determinar si el pro-
grama que se quiere evaluar genera clusters a lo largo de su implementación.
Una intervención cuyo nivel de intervención (a menudo, lugares) es diferente
del nivel al que se querrían medir los resultados (a menudo, personas) genera
clusters en torno al lugar de la intervención. Por ejemplo, puede que sea nece-
sario implementar un programa en el nivel del hospital, escuela o comunidad
(en otras palabras, a través de clusters), pero el impacto se mide en los
pacientes, alumnos o habitantes de la comunidad (véase el cuadro 15.1).5
Cuando una evaluación de impacto genera clusters, es el número de estos
últimos lo que determina en gran parte el tamaño de la muestra útil. En
cambio, el número de individuos en los clusters importa menos. Se volverá
sobre sobre esto más adelante.
La naturaleza de cualquier dato de la muestra construido a partir de
programas que están conglomerados es algo diferente de las muestras
obtenidas a partir de programas que no lo están. Como consecuencia, los
cálculos de potencia comprenderán pasos ligeramente diferentes, depen-
diendo de si un programa asigna aleatoriamente los beneficios entre los
clusters o sencillamente asigna los beneficios aleatoriamente entre todas
las unidades de una población. Se analizará cada situación en su momento.
Se comienza ahora con los principios de los cálculos de potencia en
ausencia de clusters, es decir, cuando el tratamiento se asigna al nivel
en que se observan los resultados. Luego se seguirá adelante para tratar los
cálculos de potencia cuando hay clusters.
Cuadro 15.1 Ejemplos de clusters
Nivel al que se asignan Unidad en que se

Beneficio los beneficios (cluster) miden los resultados
Transferencias monetarias Pueblo Hogares
Tratamiento anti malaria Escuela Individuos
Programa de capacitación Barrio Individuos

Cálculos de potencia sin clusters
Supóngase que se ha resuelto la primera pregunta estableciéndose que los

beneficios del programa no se asignen por cluster. En otras palabras, el pro-
grama que se evalúa asigna de forma aleatoria los beneficios entre todas las
unidades en una población elegible.
En el segundo paso, se deben identificar los indicadores de resultado más
importantes para los cuales ha sido diseñado el programa. Estos indicado-
res derivan del objetivo del programa, de una teoría del cambio y de la pre-
gunta fundamental de la investigación de la evaluación, como se señaló en la
primera parte. Los cálculos de potencia también ayudarán a entender el
tipo de indicadores más adecuados para las evaluaciones de impacto. En
realidad, como se verá más adelante, se pueden requerir muestras de diver-
sos tamaños para medir impactos en diferentes indicadores.
Tercero, se debe determinar el impacto mínimo que justificaría la inver-
sión realizada en la intervención. Se trata sobre todo de una pregunta de
políticas públicas, más que de una pregunta técnica. ¿Un programa de trans-
ferencias monetarias es una inversión provechosa si reduce la pobreza en
5%, 10% o 15%? ¿La implementación de un programa de mercado laboral
activo vale la pena si aumenta los ingresos en 5%, 10% o 15%? La respuesta
es sumamente específica del contexto, pero en todos los casos es necesario
determinar el cambio en los indicadores de resultados que justificaría la
inversión hecha en el programa. Dicho de otra manera, ¿cuál es el nivel
de impacto por debajo del cual una intervención debería considerarse no
exitosa? La respuesta a esa pregunta le dará el efecto mínimo detectable que
la evaluación de impacto tiene que ser capaz de identificar. Responder a esta
pregunta dependerá no solo del costo del programa y del tipo de beneficios
que proporciona, sino también del costo de oportunidad de no invertir
fondos en una intervención alternativa.
Si bien los efectos mínimos detectables se pueden basar en objetivos
de políticas públicas, es posible utilizar otros enfoques para establecerlos.
Puede que sea útil tomar como referencia efectos mínimos detectables en
relación con resultados de los estudios en programas similares para arrojar
luz sobre la magnitud de los impactos que se pueden esperar. Por ejemplo,
las intervenciones en educación suelen medir los beneficios en térmi-
nos de puntuaciones de las pruebas estandarizadas. Los estudios existentes
demuestran que un aumento de 0,1 desviaciones típicas es relativamente
pequeño, mientras que un aumento de 0,5 es relativamente grande. Como
alternativa, se pueden llevar a cabo simulaciones ex ante para evaluar la
gama de impactos que son realistas bajo diversas hipótesis. En el capítulo 1
se presentaron ejemplos de simulaciones ex ante para programas de trans-
ferencias monetarias condicionadas. Por último, los análisis económicos ex

Concepto clave ante pueden arrojar luz sobre el tamaño de los impactos que se necesitarían
El efecto mínimo para que la tasa de retorno de una determinada inversión sea suficiente-
detectable (EMD) es el mente alta. Por ejemplo, los aumentos de los ingresos anualizados genera-
tamaño de efecto que dos por un programa de capacitación laboral tendrían que ser superiores a
una evaluación de la tasa de interés prevalente en el mercado.
impacto está diseñada
Como se comprenderá, es más fácil identificar una gran diferencia entre
para estimar para un
determinado nivel de dos grupos que identificar una diferencia pequeña. Para que una evaluación
significancia y de impacto identifique una pequeña diferencia entre los grupos de trata-
potencia. Ceteris miento y comparación, se necesitará una estimación muy precisa de la dife-
paribus, se necesitan rencia de los resultados medios entre los dos grupos. Esto requiere una
muestras más grandes muestra grande. Como alternativa, en las intervenciones que se consideran
para que una
viables solo si generan grandes cambios en los indicadores de resultado, las
detecte diferencias muestras necesarias para llevar a cabo una evaluación de impacto serán más
más pequeñas entre pequeñas. Sin embargo, el efecto mínimo detectable debería fijarse de
los grupos de manera conservadora, dado que es menos probable que se detecte cualquier
tratamiento y impacto menor que el efecto mínimo deseado.
comparación o para
Cuarto, para llevar a cabo cálculos de potencia, se le debe pedir a un
detectar diferencias en
un resultado más experto que estime algunos parámetros básicos, como el promedio de la
variable. línea de base y una varianza de los indicadores de resultado. Estos valores
de referencia deberían preferiblemente obtenerse de los datos recopilados
en un contexto similar a aquel en el cual se implementará el programa que
se estudia, o de una encuesta piloto en la población de interés.6 Es muy
importante señalar que cuanto más variables sean los resultados de interés,
mayor será la muestra que se necesitará para estimar un efecto de trata-
miento preciso. En el ejemplo de la intervención hipotética en nutrición, el
peso de los niños es el resultado de interés. Si todos los individuos pesan lo
mismo en la línea de base, será factible estimar el impacto de una interven-
ción en nutrición en una muestra pequeña. En cambio, si los pesos de línea
de base de los niños son muy variables, se requerirá una muestra más grande
para estimar el impacto del programa.
Quinto, el equipo de evaluación tiene que determinar un nivel de potencia
razonable y un nivel de significancia para la evaluación de impacto planifi-
cada. Como ya se señaló, la potencia de una prueba es igual a 1 menos la
probabilidad de cualquier error de tipo II. Por lo tanto, la potencia oscila
entre 0 y 1, donde un valor alto indica menos riesgo de no identificar un
impacto existente. Una potencia de 0,8 es una referencia generalmente uti-
lizada para los cálculos de potencia. Significa que se encontrará un impacto
en el 80% de los casos allí donde se haya producido. Un nivel más alto de
potencia de 0,9 (o 90%) a menudo proporciona una referencia útil pero más
conservadora, lo cual aumenta el tamaño requerido de la muestra.
El nivel de significancia es la probabilidad de cometer un error de tipo I.
Normalmente se fija en 5%, de modo que se puede tener una confianza
del 95% de llegar a la conclusión de que el programa ha tenido impacto si se
encuentra un impacto significativo. Otros niveles habituales de significancia
son 1% y 10%. Cuanto menor sea el nivel de significancia, más confianza se
puede tener en que el impacto estimado es real.
Una vez que se han abordado estas cinco preguntas, el experto en cálculos
de potencia puede calcular el tamaño requerido de la muestra utilizando un
software estadístico.7 El cálculo de potencia indicará el tamaño requerido de
la muestra, dependiendo de los parámetros establecidos en los pasos 1 a 5.
Los propios cálculos son sencillos, una vez que se han determinado los pará-
metros relevantes para las políticas (sobre todo en los pasos 2 y 3).8 (Si a usted
le interesa la implementación de los cálculos de potencia, el manual técnico
disponible en el sitio web del libro contiene ejemplos de cálculos de potencia
utilizando Stata y Optimal Design.)
Al solicitar asesoría a los expertos estadísticos, el equipo de evaluación
debería pedir un análisis de la sensibilidad del cálculo de potencia ante cam-
bios en los supuestos. Es decir, es importante entender cuánto tendrá que
aumentar el tamaño requerido de la muestra con supuestos más conserva-
dores (como un impacto previsto menor, mayor varianza en el indicador de
resultado o un mayor nivel de potencia). También es una buena práctica
encargar cálculos de potencia para diversos indicadores de resultados, dado
que los tamaños requeridos de la muestra pueden variar considerablemente
si algunos indicadores de resultados son mucho más variables que otros. Por
último, los cálculos de potencia también pueden indicar el tamaño de la
muestra necesario para establecer una comparación de los impactos del
programa en diferentes subgrupos específicos (por ejemplo, hombres o
mujeres, u otros subgrupos de la población de interés). Cada subgrupo
tendría que tener el tamaño requerido de la muestra.
Evaluación del impacto del HISP: la decisión del tamaño

de la muestra necesario para evaluar el HISP ampliado
Para volver al ejemplo presentado en la segunda parte del libro, supón-

gase que el ministerio de Salud estaba satisfecho con la calidad y los resul-
tados de la evaluación del Programa de Subsidios de Seguros de Salud
(HISP, por sus siglas en inglés). Sin embargo, antes de ampliar el pro-
grama, el ministro decide realizar una prueba piloto de una versión
ampliada del programa, que denominan HISP+. El HISP original paga
una parte del costo del seguro de salud de los hogares rurales pobres, y
cubre los costos de la atención primaria y los medicamentos, pero no
cubre la hospitalización. El ministro de Salud se pregunta si un HISP+ que

también cubra la hospitalización disminuiría aún más los gastos directos
en salud de los hogares pobres. El ministerio le pide diseñar una evalua-
ción de impacto para evaluar si el HISP+ disminuiría los gastos en salud
de los hogares rurales pobres.
En este caso, elegir un diseño de evaluación de impacto no es difícil: el
HISP+ tiene recursos limitados y no puede ser implementado universal-
mente de manera inmediata. Como consecuencia, se llega a la conclusión
de que la asignación aleatoria sería el método de evaluación de impacto
más viable y robusto. El ministro de Salud entiende que el método de asig-
nación aleatoria puede funcionar bien y se muestra de acuerdo.
Para finalizar el diseño de la evaluación de impacto, usted contrata a
un técnico estadístico que le ayudará a definir el tamaño de la muestra
necesaria. Antes de comenzar a trabajar, el técnico estadístico le pide
información clave. Utiliza una lista de verificación de cinco preguntas.
1. ¿El programa HISP+ generará clusters? A estas alturas, usted no está

totalmente seguro. Cree que es posible asignar de forma aleatoria el
paquete de beneficios ampliado a nivel de los hogares entre todos los
hogares rurales pobres que ya se benefician del HISP. Sin embargo,
usted sabe que el ministro de Salud puede preferir asignar el programa
ampliado a nivel de la comunidad y que eso generaría clusters. El téc-
nico estadístico sugiere llevar a cabo cálculos de potencia en un caso de
referencia sin clusters, y luego analizar cómo cambiarían los resultados
con los clusters.
2. ¿Cuál es el indicador de resultado? Usted explica que al gobierno le

interesa un indicador bien definido, a saber, los gastos directos en
salud de los hogares pobres. El técnico estadístico busca la fuente más
actualizada para obtener valores de referencia de este indicador y
sugiere utilizar la encuesta de seguimiento de la evaluación HISP.
Señala que entre los hogares que reciben el HISP, los gastos directos
anuales per cápita en salud llegan a un promedio de US$7,84.
3. ¿Cuál es el nivel mínimo de impacto que justificaría la inversión en

la intervención? En otras palabras, ¿qué disminución de los gastos
directos en salud por debajo del promedio de US$7,84 justificaría esta
intervención? El profesional estadístico subraya que no se trata solo de
una consideración técnica, sino de una decisión de políticas. Por eso,
un responsable de las políticas como usted debe establecer el efecto
mínimo que la evaluación debería ser capaz de detectar. Usted recuerda
que, basándose en análisis económicos ex ante, el programa HISP+ se
consideraría efectivo si redujera los gastos directos en salud de los

hogares en US$2. Aun así, usted sabe que para los fines de la evalua-
ción, puede que sea preferible ser conservador al determinar el impacto
mínimo detectable, dado que es poco probable que se detecte cualquier
otro impacto menor. Para entender cómo el tamaño necesario de la
muestra varía según el efecto mínimo detectable, usted sugiere que el
técnico estadístico lleve a cabo cálculos para una reducción mínima de
los gastos directos en salud de US$1, US$2 y US$3.
4. ¿Cuál es la varianza del indicador de resultado en la población de

interés? El técnico estadístico vuelve a la base de datos de los hogares
HISP tratados, y señala que la desviación típica de los gastos directos
en salud es de US$8.
5. ¿Cuál sería un nivel razonable de potencia para la evaluación que

se lleva a cabo? El profesional estadístico añade que los cálculos de
potencia suelen efectuarse para una potencia de entre 0,8 y 0,9.
Recomienda 0,9, pero propone realizar verificaciones de robustez más
tarde, con un nivel menos conservador de 0,8.
Con toda esta información, el técnico estadístico emprende los cálculos

de potencia. Como se había acordado, comienza con el caso más conser-
vador de una potencia de 0,9. En el cuadro 15.2 se recogen los resultados
que genera.
El estadístico llega a la conclusión de que para detectar una disminu-
ción de US$2 en los gastos directos en salud con una potencia de 0,9, la
muestra tiene que contener al menos 672 unidades (336 unidades tratadas
y 336 unidades de comparación, sin clusters). Señala que si usted se sin-
tiera satisfecho detectando una disminución de US$3 en los gastos direc-
tos en salud, una muestra más pequeña de al menos 300 unidades (150
unidades en cada grupo) sería suficiente. En cambio, se necesitaría una
Cuadro 15.2 Evaluación del HISP+: tamaño requerido de la muestra para

identificar diversos efectos mínimos detectables, potencia = 0,9
Efecto mínimo Grupo de Grupo de

detectable tratamiento comparación Total muestra
US$1 1.344 1.344 2.688
US$2 336 336 672
US$3 150 150 300
Nota: El efecto mínimo detectable describe la reducción mínima de los gastos directos en salud de
los hogares que puede detectar la evaluación de impacto. Potencia = 0,9; sin clusters.

muestra mucho más grande de al menos 2.688 unidades (1.344 cada
grupo) para detectar una disminución de US$1 en los gastos directos en
salud.
El técnico estadístico luego produce otro cuadro para un nivel de
potencia de 0,8. El cuadro 15.3 muestra que los tamaños de la muestra
requeridos son más pequeños con una potencia de 0,8 que con una
potencia de 0,9. Para detectar una reducción de US$2 en los gastos direc-
tos en salud de los hogares, sería suficiente una muestra total de al menos
502 unidades. Para detectar una reducción de US$3, se precisan al menos
224 unidades. Sin embargo, para detectar una reducción de US$1 se
necesitarían al menos 2.008 unidades en la muestra. El técnico estadís-
tico subraya que los siguientes resultados son típicos de los cálculos de
potencia:
 Cuanto mayor (más conservador) el nivel de potencia, mayor será el

tamaño requerido de la muestra.
 Cuanto más pequeño el impacto detectado, mayor será el tamaño

requerido de la muestra.
El técnico estadístico le pregunta si quiere llevar a cabo cálculos

de potencia para otros resultados de interés. Usted sugiere considerar
también el tamaño requerido de la muestra para detectar si el HISP+
influye en la tasa de hospitalización. En el ejemplo de las comunidades
HISP tratadas, en el 5% de los hogares hay un miembro del hogar que
acude al hospital en un año cualquiera; esto proporciona una tasa de
referencia. El estadístico produce un nuevo cuadro, que demuestra que
se necesitarían muestras relativamente grandes para detectar cambios
en la tasa de hospitalización (cuadro 15.4) de 1, 2 o 3 puntos porcentuales
con respecto a la tasa de línea de base del 5%.

identificar diversos efectos mínimos detectables, potencia = 0,8
Efecto mínimo Grupo de Grupo de

detectable tratamiento comparación Total muestra
US$1 1.004 1.004 2.008
US$2 251 251 502
US$3 112 112 224
los hogares que puede detectar la evaluación de impacto. Potencia = 0,8; sin clusters.

El cuadro 15.4 muestra que los requisitos del tamaño de la muestra
son mayores para este resultado (la tasa de hospitalización) que para los
gastos directos en salud. El técnico estadístico llega a la conclusión de
que si usted está interesado en detectar impactos en ambos resultados,
debería utilizar los tamaños de muestra más grandes que surgen de los
cálculos de potencia efectuados en las tasas de hospitalización. Si se usan
los tamaños de muestra de los cálculos de potencia realizados para los
gastos directos, el técnico estadístico sugiere informar al ministro de
Salud que la evaluación no tendrá suficiente poder para detectar efectos
pertinentes para las políticas en las tasas de hospitalización.

detectar diversos efectos mínimos deseados (aumento de la tasa de
hospitalización)
Potencia = 0,8; sin clusters
Efecto mínimo
detectable Grupo de Grupo de
(porcentaje) tratamiento comparación Total muestra
1 7.257 7.257 14.514
2 1.815 1.815 3.630
3 807 807 1.614
Nota: El efecto mínimo deseado describe el cambio mínimo en la tasa de utilización de servicios
hospitalarios (expresado en puntos porcentuales) que puede detectar la evaluación de impacto.
Pregunta HISP 8
A. ¿Qué tamaño de la muestra recomendaría usted para estimar el

impacto del HISP+ en los gastos directos en salud?
B. ¿Ese tamaño de la muestra sería suficiente para detectar cambios en la
tasa de hospitalización?
Cálculos de potencia con clusters
En el apartado anterior se introdujeron los principios de llevar a cabo

cálculos de potencia para programas que no generan clusters. Sin embargo,
como se señaló en la segunda parte, algunos programas asignan beneficios
a nivel de clusters. A continuación, se describe brevemente cómo hay que
adaptar los principios básicos de los cálculos de potencia para las muestras
con clusters.
Ante la presencia de clusters, un principio rector clave es que el número de
clusters suele importar mucho más que el número de individuos en los clusters.
Se requiere un número suficiente de clusters para probar de forma convin-
cente si un programa ha tenido impacto al contraponer resultados en mues-
tras de las unidades de tratamiento y comparación. Es el número de clusters el
que determina en gran parte el tamaño de la muestra útil o efectivo. Si se
asigna de manera aleatoria el tratamiento entre un pequeño número de clus-
ters, es poco probable que los clusters de tratamiento y comparación sean
idénticos. La asignación aleatoria entre dos distritos, dos escuelas o dos hospi-
tales no garantizará que los dos clusters sean similares. En cambio, la asigna-
ción aleatoria de una intervención entre 100 distritos, 100 escuelas o 100
hospitales tiene más probabilidades de asegurar que los grupos de tratamiento
y comparación sean similares. En resumen, se requiere un número suficiente
de clusters para alcanzar un equilibrio. Además, el número de clusters también
importa para la precisión de los efectos estimados del tratamiento. Se requiere
un número suficiente de clusters para probar la hipótesis de que un programa
tiene un impacto con suficiente potencia. Cuando se implementa una evalua-
ción de impacto basada en la asignación aleatoria, es muy importante asegu-
rar que el número de clusters sea suficientemente grande.
Se puede establecer el número de clusters requeridos para pruebas de
hipótesis precisas efectuando cálculos de potencia. Esto exige formular las
mismas cinco preguntas expuestas anteriormente, más una pregunta extra:
¿Cuán variable es el indicador de resultado en los clusters?
En el extremo, todos los resultados en un cluster están perfectamente
correlacionados. Por ejemplo, puede ocurrir que el ingreso del hogar no
varíe especialmente en las comunidades, pero que entre comunidades se
Concepto clave
observe una desigualdad importante en los ingresos. En este caso, si usted
El número de clusters
considera añadir una persona a su muestra de evaluación, agregar a un indi-
importa mucho más en
los cálculos de viduo de una comunidad nueva aumentará mucho más la potencia que
potencia que el número introducir un individuo de una comunidad que ya está representada. Dado
de individuos en los que los resultados están plenamente correlacionados en un cluster, añadir
clusters. Se requieren un nuevo individuo de ese cluster existente no aportará nueva información.
a menudo al menos 40 En realidad, en este caso, es probable que el individuo de la segunda comu-
a 50 clusters en cada
nidad tenga un aspecto muy similar al individuo original ya incluido. En
uno de los grupos de
tratamiento y general, una mayor correlación intra-cluster en los resultados (es decir, una
comparación, aunque mayor correlación en los resultados o características entre las unidades que
los requisitos del pertenecen al mismo cluster) aumenta el número de clusters requeridos
tamaño de la muestra para alcanzar un determinado nivel de potencia.
variarán según los
En las muestras con clusters, los cálculos de potencia subrayan los bene-
casos, y los cálculos de
potencia son ficios relativos entre añadir clusters y añadir observaciones dentro de los
necesarios para clusters. El aumento relativo de la potencia al agregar una unidad de un
asegurar un tamaño nuevo cluster es casi siempre mayor que el de sumar una unidad a un cluster
adecuado de la ya existente. Aunque el incremento de la potencia al añadir un nuevo cluster
muestra. puede ser drástico, agregar clusters también puede tener implicaciones
operativas y elevar el costo de la implementación del programa o de la
recopilación de datos. Más adelante en este capítulo, se explica cómo efec-
tuar cálculos de potencia con clusters en el caso del HISP+ y se analizan
algunas consideraciones.
En numerosos casos, se requieren al menos entre 40 y 50 clusters en
cada grupo de tratamiento y comparación para obtener potencia sufi-
ciente y garantizar la similitud de las características de línea de base al
usar métodos de asignación aleatoria. Sin embargo, puede que el número
varíe de acuerdo con los diversos parámetros ya analizados, así como la
correlación intra-cluster. Además, como se verá más adelante, es probable
que el número probablemente aumente al utilizar métodos distintos de la
asignación aleatoria (suponiendo que todos los demás factores perma-
nezcan constantes).
Evaluación del impacto del HISP: tamaño requerido de la

muestra para evaluar un HISP expandido con clusters
Después de su primera conversación con el técnico estadístico acerca

de los cálculos de potencia para el HISP+, usted decide hablar breve-
mente con el ministro de Salud acerca de las implicaciones de asignar
aleatoriamente los beneficios del HISP+ entre todos los individuos de la
población que reciben el plan básico del HISP. La consulta revela que ese
procedimiento no sería políticamente viable: en ese contexto, resultaría
difícil explicar por qué una persona recibiría los beneficios ampliados
mientras que su vecino no los recibiría.
Por lo tanto, en lugar de la asignación aleatoria a nivel individual, usted
sugiere seleccionar aleatoriamente un cierto número de comunidades
HISP para realizar una prueba piloto del HISP+. Todos los miembros de
la comunidad del pueblo seleccionado serían elegibles. Este procedi-
miento generará clusters y, por lo tanto, requerirá nuevos cálculos de
potencia. Ahora se trata de determinar el tamaño requerido de la muestra
para evaluar el impacto del HISP+ cuando se asigne aleatoriamente
por cluster.
Usted vuelve a consultar con su técnico estadístico. Él vuelve a asegu-
rarle que solo se requiere un poco más de trabajo. En su lista de verifica-
ción solo queda una pregunta por responder, a saber: cuánto varía el
indicador de resultado en los clusters. Por fortuna, también es una pre-
gunta que se puede responder utilizando los datos del HISP. El técnico
descubre que la correlación de los gastos directos en salud en la comunidad
es igual a 0,04.

También pregunta si se ha fijado un límite para el número de comuni-
dades en las que sería viable implementar el nuevo plan piloto. Dado que el
programa ahora tiene 100 comunidades en el HISP, usted explica que
podría tener, como máximo, 50 comunidades de tratamiento y 50 comuni-
dades de comparación para el HISP+. Con esa información, el técnico
estadístico produce los cálculos de potencia que aparecen en el cuadro 15.5
con una potencia de 0,8.
El estadístico llega a la conclusión de que para detectar una disminu-
ción de US$2 en los gastos directos en salud, la muestra debe incluir al
menos 630 unidades, es decir, 7 unidades por cluster en 90 clusters (45 en
el grupo de tratamiento y 45 en el grupo de comparación). Señala que
este número es mayor que en la muestra con asignación aleatoria a nivel
de los hogares, que requirió solo un total de 502 unidades (251 en el grupo
de tratamiento y 251 en el grupo de comparación; véase el cuadro 15.3).
Para detectar una disminución de US$3 en los gastos directos en salud,
la muestra tendría que incluir al menos 246 unidades, o 3 unidades en
cada uno de los 82 clusters (41 en el grupo de tratamiento y 41 en el grupo
de comparación).
Posteriormente, el técnico estadístico le indica cómo el número total
de observaciones requeridas en la muestra varía con el número total de
clusters. Luego decide repetir los cálculos para un efecto mínimo detecta-
ble de US$2 y una potencia de 0,8. El tamaño de la muestra total reque-
rida para estimar dicho efecto aumenta visiblemente cuando el número
de clusters disminuye (cuadro 15.6). Con 120 clusters, se necesitaría una
muestra de 600 observaciones. Si solo hubiera 30 clusters disponibles, la
muestra total debería contener 1.500 observaciones. En cambio, si hubiera
90 clusters disponibles, solo se necesitarían 630 observaciones.

identificar diversos efectos mínimos detectables (disminución de los
gastos del hogar en salud)
Potencia = 0,8; máximo de 100 clusters
Efecto mínimo Número Unidades Total muestra Total muestra

detectable de clusters por cluster con clusters sin clusters
US$1 100 102 10.200 2.008
US$$2 90 7 630 502
US$3 82 3 246 224
los hogares que puede detectar la evaluación de impacto. El número de clusters es el número total
de clusters, la mitad de los cuales será el número de clusters del grupo de comparación, y la otra
mitad será el número de clusters del grupo de tratamiento.

detectar un impacto mínimo de US$2 en diversas cantidades de clusters
Potencia = 0,8
Efecto mínimo Número Unidades Total muestra

detectable de clusters por cluster con clusters
US$2 30 50 1.500
US$2 58 13 754
US$2 81 8 648
US$2 90 7 630
US$2 120 5 600
Nota: El número de clusters es el número total de clusters, la mitad de los cuales será el número
de clusters del grupo de comparación, y la otra mitad será el número de clusters del grupo de
tratamiento. Si el diseño no tuviera clusters, se necesitarían 251 unidades en cada grupo para
identificar un efecto mínimo detectable de US$2 (véase el cuadro 15.3).
Pregunta HISP 9
A. ¿Qué tamaño total de la muestra recomendaría para estimar el impacto

del HISP+ en los gastos directos en salud?
B. ¿En cuántas comunidades le aconsejaría al ministro de Salud imple-
mentar el HISP+?
Más allá del caso de referencia
Este capítulo se ha centrado en el caso de referencia de una evaluación de

impacto implementada utilizando el método de asignación aleatoria, con
pleno cumplimiento. Este es el escenario más sencillo y, por lo tanto, el más
adecuado para transmitir la intuición en que se basan los cálculos de poten-
cia. Aun así, numerosos aspectos prácticos de nuestros cálculos de potencia
aún no han sido analizados, y es necesario considerar detenidamente las
desviaciones de los casos básicos que se abordan aquí. Más abajo, se tratan
algunas de estas desviaciones.
Utilización de métodos cuasi experimentales. Ceteris paribus, los métodos
de evaluación de impacto cuasi experimentales, como la regresión
discontinua, el pareamiento o las diferencias en diferencias, tienden a
requerir muestras más grandes que el método de referencia de asignación
aleatoria. Por ejemplo, al utilizar el diseño de regresión discontinua, en el
capítulo 6 se subrayaba que solo se pueden considerar las observaciones en
torno al umbral de elegibilidad. Se requiere una muestra suficientemente
grande en torno a ese umbral. Los cálculos de potencia son necesarios para
estimar la muestra requerida de modo de establecer comparaciones signifi-
cativas en torno al umbral.
Por otro lado, la disponibilidad de diversas rondas de datos puede
contribuir a aumentar la potencia de una evaluación de impacto con
un determinado tamaño de la muestra. Por ejemplo, los datos de línea de
base sobre resultados y otras características pueden añadir precisión a la
estimación de los efectos de tratamiento. La disponibilidad de medidas
repetidas de resultados después del comienzo del tratamiento también
puede ser útil.
Análisis de diferentes modalidades de programa o innovaciones de diseño.
En los ejemplos presentados en este capítulo, el tamaño total de la muestra se
dividía por igual entre los grupos de tratamiento y comparación. En algunos
casos, la principal pregunta de políticas con respecto a la evaluación puede
generar la comparación de impactos del programa entre las modalidades del
programa o las innovaciones de diseño. Si esto es así, el impacto previsto
puede ser relativamente menor que si un grupo de tratamiento objeto de un
programa fuera comparado con un grupo de comparación que no recibía
ningún tipo de beneficios. Como tal, el efecto mínimo deseado entre los dos
grupos de tratamiento puede ser más pequeño que el efecto mínimo deseado
entre el grupo de tratamiento y el grupo de comparación. Esto implicaría
que la distribución óptima de la muestra generaría grupos de tratamiento
que son relativamente más grandes que el grupo de comparación.9 En las
evaluaciones de impacto con múltiples ramas de tratamiento, puede que sea
necesario implementar cálculos de potencia para estimar por separado el
tamaño de cada grupo de tratamiento y comparación, en función de la prin-
cipal pregunta de interés de las políticas.
Comparación de subgrupos. En otros casos, algunas de las preguntas de la
evaluación de impacto pueden centrarse en estimar si los impactos de un
programa varían entre diferentes subgrupos, como el sexo, la edad o las
categorías de ingreso. Si esto es lo que ocurre, los requisitos del tamaño de la
muestra serán mayores y los cálculos de potencia tendrán que ajustarse de
forma correspondiente. Por ejemplo, una pregunta clave de políticas puede
ser si un programa educativo tiene un impacto mayor en las alumnas que en
los alumnos. Se necesitará un número suficiente de alumnos de cada sexo en
el grupo de tratamiento y el grupo de comparación para detectar un impacto
en cada subgrupo. Si se pretende comparar los impactos del programa entre
dos subgrupos, puede que se duplique el tamaño requerido de la muestra. Si
se considera la heterogeneidad entre más grupos (por ejemplo, por la edad)
también puede aumentar considerablemente el tamaño requerido de la
muestra. Si este tipo de comparaciones entre grupos ha de llevarse a cabo en
el contexto de una evaluación de impacto que depende de la asignación
aleatoria, es preferible también tenerlas en cuenta cuando se implementa
la aleatorización y, sobre todo, para aplicar una asignación aleatoria
por bloques o estratos (es decir, en cada subgrupo que se compara). En
la práctica, aunque no se realice ninguna comparación entre subgrupos, la
aleatorización estratificada o por bloque puede contribuir a maximizar aún
más la potencia de un determinado tamaño de la muestra.
Análisis de múltiples resultados. Es necesario proceder con singular
cuidado cuando se emprenden cálculos de potencia en los casos en que una
evaluación de impacto pretenda probar si un programa genera cambios en
múltiples resultados. Si se tienen en cuenta numerosos resultados diferentes,
habrá una probabilidad relativamente más alta de que la evaluación de
impacto encuentre impactos en uno de los resultados solo por azar. Para
abordar esto, el equipo de evaluación de impacto tendrá que pensar en pro-
bar la significancia estadística conjunta de los cambios en diversos resulta-
dos. Como alternativa, se pueden elaborar algunos índices o familias de
resultados. Estos enfoques para lidiar con las pruebas de múltiples hipótesis
tienen implicaciones para los cálculos de potencia y el tamaño de la muestra
y, en ese sentido, hay que tenerlos en cuenta cuando se define la muestra
necesaria para la evaluación de impacto.10
Para lidiar con el cumplimiento imperfecto o el desgaste de la muestra. Los
cálculos de potencia suelen proporcionar el tamaño mínimo requerido de
la muestra. En la práctica, los problemas de implementación a menudo
implican que el tamaño de la muestra real es más pequeño que el tamaño
planificado. Por ejemplo, el cumplimiento imperfecto puede significar que
solo se inscribe una parte de los beneficiarios a los que se ofrece el pro-
grama. Los requisitos del tamaño de la muestra aumentan cuando surge el
cumplimiento imperfecto. Además, aunque todos los individuos se inscri-
bieran en el programa, se puede producir algún grado de desgaste en la
encuesta de seguimiento si no se da con el paradero de todos los individuos.
Aunque ese incumplimiento o desgaste es aleatorio y no afecta la consis-
tencia de las estimaciones de impacto, estos aspectos influirían en la
potencia de la evaluación de impacto. Para dar cuenta de dichos factores,
generalmente se recomienda añadir un margen al tamaño de la muestra
prevista por los cálculos de potencia. De la misma manera, los datos de
menor calidad tendrán más error de medición y harán que los resultados
de interés sean más variables, además de que requerirán tamaños de la
muestra más grandes.
Las reflexiones más avanzadas mencionadas en esta sección exceden el
alcance de este libro, pero los recursos recogidos al final de este capítulo
pueden ser útiles. En la práctica, los equipos de evaluación tienen que incluir
o contratar a un experto que pueda efectuar cálculos de potencia, y el
experto debería ser capaz de asesorar en temas más complejos.
Otros recursos
 Para material de apoyo relacionado con el libro y para hipervínculos de más
 Para ejemplos de cómo efectuar cálculos de potencia con los programas StataTM
y Optimal Design para el caso específico del HISP que ilustra este capítulo, véa-
se el manual técnico disponible en el sitio web del libro (http://www.iadb.org
/portalevaluacion). Este manual incluye material técnico adicional para lectores
con conocimientos de estadística y econometría.
 Para un debate detallado sobre el muestreo (incluyendo otros métodos como
el muestreo sistemático o muestreo de múltiples etapas), más allá de los con-
ceptos básicos tratados aquí, véase los siguientes recursos:
➢ W. G. Cochran (1977), Sampling Techniques, tercera edición. Nueva York:
John Wiley.
➢ L. Kish (1995), Survey Sampling. Nueva York: John Wiley.
➢ S. Lohr (1999), Sampling: Design and Analysis. Pacific Grove, CA:
Brooks Cole.
➢ S. K. Thompson (2002), Sampling, segunda edición. Nueva York: John Wiley.
➢ O, en un nivel más básico, G. Kalton (1983), Introduction to Survey
Sampling. Beverly Hills, CA: Sage Publications.
 Se puede encontrar orientación práctica para el muestreo en:
➢ M. Grosh y J. Muñoz (1996), “A Manual for Planning and Implementing
the Living Standards Measurement Study Survey.” Documento de trabajo
LSMS 126. Washington, D.C.: Banco Mundial.
➢ Naciones Unidas (2005), Household Sample Surveys in Developing and
Transition Countries. Nueva York: Naciones Unidas.
➢ G. Iarossi (2006), The Power of Survey Design: A User’s Guide for
Managing Surveys, Interpreting Results, and Influencing Respondents.
➢ A. G. Fink (2008), How to Conduct Surveys: A Step by Step Guide, cuarta
edición. Beverly Hills, CA: Sage.
 Para una hoja de cálculo de potencia que calcule la potencia de un determi-
nado tamaño de la muestra después de ingresar ciertas características, véase
el portal de evaluación del Banco Interamericano de Desarrollo, sección de
diseño, en herramientas (http://www.iadb.org/portalevaluacion).
 Para más información sobre cálculos de potencia y tamaño de la muestra, véase
el Kit de Herramientas de Evaluación de Impacto (Impact Evaluation Toolkit)
del Banco Mundial, Módulo 3 sobre Diseño. Este módulo también incluye un
guía para realizar cálculos de potencia ex ante, un documento sobre cálculos
de potencia con variables binarias y una recopilación de referencias útiles para
más información sobre los cálculos de potencia (http://www.worldbank.org
/health/impactevaluationtoolkit).
 Para diversos blogs sobre cálculos de potencia, véase el blog de impacto del
desarrollo del Banco Mundial (World Bank Development Impact Blog) (http://
blogs.worldbank.org/impactevaluations/).

 Para un debate de algunas reflexiones sobre cálculos de potencia en diseños
más complejos que el caso de referencia de la asignación aleatoria en
presencia de cumplimiento perfecto, véase:
➢ J. Spybrook, S. Raudenbush, X. Liu, R. Congdon y A. Martínez (2008),
Optimal Design for Longitudinal and Multilevel Research: Documentation
for the “Optimal Design” Software. Nueva York: William T. Grant
Foundation.
➢ P. Rosenbaum (2009), “The Power of Sensitivity Analysis and Its Limit.”
En: P. Rosenbaum, Design of Observational Studies, capítulo 14. Nueva York:
Springer Series in Statistics.
 Sobre el tema de pruebas de múltiples hipótesis, véase:
➢ E. Duflo, R. Glennerster, M. Kremer, T. P. Schultz y A. S. John (2007),
“Using Randomization in Development Economics Research: A Toolkit.”
En: Handbook of Development Economics, Vol. 4, capítulo 61, pp. 3895–
3962. Ámsterdam: Elsevier.
➢ P. Z. Schochet (2008), Guidelines for Multiple Testing in Impact
Evaluations of Educational Interventions. Preparado por Mathematica
Policy Research Inc., para el Institute of Education Sciences, U.S.
Department of Education, Washington, D.C.
 Hay diversos instrumentos disponibles para quienes estén interesados en
analizar el diseño de la muestra de manera más profunda. Por ejemplo, la
W.T. Grant Foundation desarrolló el software de libre disponibilidad Optimal
Design, un software para la Investigación de Múltiples Niveles y Longitudinal,
útil para el análisis de potencia estadística con clusters. El software y el manual
de Optimal Design se pueden descargar de http://hlmsoft.net/od.
Notas
1. Estrictamente hablando, las muestras se extraen de los marcos muestrales. En
este análisis, se supone que el marco muestral coincide perfectamente con la
población.
2. Como se señaló en la segunda parte, el cumplimiento supone que todas las
unidades asignadas al grupo de tratamiento son tratadas y que todas las
unidades asignadas al grupo de comparación no son tratadas.
3. En este contexto, el término población no se refiere a la población del país,
sino al conjunto del grupo de niños que nos interesan: la población de
interés.
4. Esta idea se concreta en el teorema denominado “teorema del límite central”.
En términos formales, en el caso de un resultado y, el teorema del límite central
establece que la media de la muestra —y constituye en promedio una estimación
válida de la media de la población. Además, para un tamaño de muestra n y una
varianza de la población s2, la varianza de la media de la muestra es inversa-
mente proporcional al tamaño de la muestra:
s2
var( y) 
n

A medida que aumenta el tamaño de la muestra n, las estimaciones de la
varianza de la muestra tienden hacia cero. En otras palabras, la media se estima
con más precisión en muestras grandes que en pequeñas.
5. Las cuestiones de índole social y política, que hacen imposible la asignación
aleatoria en los clusters suelen requerir la asignación de beneficios por cluster.
En el contexto de una evaluación de impacto, la configuración de clusters suele
ser necesaria debido a los probables efectos de derrame, o a la contaminación
de los beneficios del programa entre los individuos en los clusters. Véase el
tratamiento de este tema en el capítulo 11.
6. Cuando se calcula la potencia desde la línea de base, la correlación entre los
resultados a lo largo del tiempo también se debe considerar en el cálculo de
potencia.
7. Por ejemplo, Spybrook et al. (2008) introdujeron el Optimal Design, un
programa informático fácil de usar para efectuar cálculos de potencia.
8. En general, es deseable contar con grupos de tratamiento y de comparación del
mismo tamaño. De hecho, para cierto número de observaciones en una
muestra, se maximiza la potencia asignando la mitad de las observaciones al
grupo de tratamiento y la otra mitad al grupo de comparación. Sin embargo, los
grupos de tratamiento y de comparación no siempre tienen que tener el mismo
tamaño.
9. Los costos del tratamiento también se pueden tener en cuenta y generar grupos
de tratamiento y comparación que no tienen el mismo tamaño. Véase, por
ejemplo Duflo et al. (2007).
10. Véase, por ejemplo Duflo et al. (2007) o Schochet (2008).
Cochran, W. G. 1977. Sampling Techniques, tercera edición. Nueva York: John
Wiley & Sons.
Duflo, E., R. Glennerster, M. Kremer et al. 2007. “Using Randomization in
Development Economics Research: A Toolkit.” En: T. P. Schultz y J. Strauss
(eds.), Handbook of Development Economics, Vol. 4, pp. 3895–962. Ámsterdam:
Elsevier.
Fink, A. G. 2008. How to Conduct Surveys: A Step by Step Guide, cuarta edición.
Beverly Hills, CA: Sage.
Grosh, M. y P. Glewwe (eds.). 2000. Designing Household Survey Questionnaires
for Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington, D.C.: Banco Mundial.
Grosh, M. y J. Muñoz. 1996. “A Manual for Planning and Implementing the Living
Standards Measurement Study Survey.” Documento de trabajo LSMS 126.
Iarossi, G. 2006. The Power of Survey Design: A User’s Guide for Managing Surveys,
Interpreting Results, and Influencing Respondents. Washington, D.C.: Banco
Mundial.
Kalton, G. 1983. Introduction to Survey Sampling. Beverly Hills, CA: Sage.

Kish, L. 1995. Survey Sampling. Nueva York: John Wiley.
Lohr, S. 1999. Sampling: Design and Analysis. Pacific Grove, CA: Brooks Cole.
Rosenbaum, P. 2009. Design of Observational Studies. Nueva York: Springer Series
in Statistics.
Schochet, P. Z. 2008. Guidelines for Multiple Testing in Impact Evaluations of
Educational Interventions. NCEE 2008-4018. National Center for Eduational
Evaluation and Regional Assistance, Institute of Education Sciences.
Washington, D.C.: U.S. Department of Education.
Spybrook, J., S. Raudenbush, X. Liu, R. Congdon y A. Martínez. 2008. Optimal
Design for Longitudinal and Multilevel Research: Documentation for the “Optimal
Design” Software. Nueva York: William T. Grant Foundation.
Thompson, S. K. 2002. Sampling, segunda edición. Nueva York: John Wiley.
Washington, D.C.: Banco Mundial. Disponible en http://www.worldbank
.org/health/impactevaluationtoolkit.

CAPÍTULO 16
Encontrando fuentes adecuadas

de datos
Tipos de datos necesarios
En este capítulo se analizan las diversas fuentes de datos que pueden utilizar
las evaluaciones de impacto. En primer lugar, se estudian las fuentes de
datos existentes, sobre todo los datos administrativos, y se proporcionan
algunos ejemplos de evaluaciones de impacto que han aprovechado datos
existentes. Dado que muchas evaluaciones requieren la recopilación de
datos nuevos, también se examinan los pasos en la recopilación de nuevos
datos de las encuestas. Una comprensión clara de estos pasos contribuirá a
asegurar que la evaluación de impacto se base en datos de calidad que no
comprometan el diseño de evaluación. Como primer paso, habrá que con-
tratar la elaboración de un cuestionario adecuado. Paralelamente, se necesi-
tará ayuda de una empresa o un organismo del gobierno especializado en
recopilación de datos. La entidad de recopilación de datos reclutará y
capacitará al personal de campo y realizará una prueba piloto del cuestiona-
rio. Después de introducir los ajustes necesarios, la empresa o el organismo
podrán proceder con el trabajo de campo, recopilar los datos, digitalizarlos
y procesarlos antes de que puedan ser entregados, almacenados y analiza-
dos por el equipo de evaluación.
Para evaluar el impacto de la intervención en los resultados de interés, se
requieren datos de buena calidad. La cadena de resultados que se expone en
323
el capítulo 2 proporciona una base para definir qué indicadores deberían
medirse y cuándo. Los indicadores son necesarios en toda la cadena de
resultados.
Datos sobre los resultados. La primera y principal necesidad son los datos
sobre los indicadores de resultado directamente afectados por el programa.
Los indicadores de resultado están vinculados con los objetivos que el pro-
grama pretende alcanzar. Como se señaló en el capítulo 2, los indicadores de
resultado deben seleccionarse preferiblemente para que sean específicos,
medibles, atribuibles, realistas y focalizados (EMARF). No obstante, la
evaluación de impacto no debe medir solo aquellos resultados de los que el
programa rinde directamente cuentas. Los datos sobre los indicadores de
resultados que el programa afecta indirectamente, o los indicadores que
capturan los efectos no intencionados del programa, maximizarán el valor
de la información que genera la evaluación de impacto, así como la com-
prensión de la efectividad general del programa.
Datos sobre los resultados intermedios. Por otro lado, los datos sobre los
resultados intermedios son útiles para ayudar a entender los canales a tra-
vés de los cuales el programa evaluado ha tenido impacto –o no lo ha
tenido– en los resultados finales de interés. Normalmente, las evaluaciones
de impacto se llevan a cabo a lo largo de diversos períodos y se debe definir
cuándo medir los indicadores de resultados. Siguiendo esta cadena de
resultados, se puede establecer una jerarquía de indicadores de resultado,
que abarca desde los indicadores de corto plazo, que se pueden medir
mientras los participantes todavía están en el programa, como la asistencia
escolar registrada en una encuesta de seguimiento de corto plazo en el
contexto de un programa educativo, hasta las encuestas de seguimiento de
más largo plazo, como el aprendizaje escolar o la inserción en el mercado
laboral, que se pueden medir en una encuesta de seguimiento a más largo
Concepto clave plazo después de que los participantes han dejado el programa. Para medir
Los indicadores son el impacto a lo largo del tiempo de manera convincente es necesario contar
necesarios en toda la con datos de la línea de base antes de implementar el programa o la innova-
cadena de resultados. ción que se evalúa. La sección del capítulo 12 que versa sobre la programa-
Constituyen la ción en el tiempo de la evaluación arroja luz sobre cómo definir el momento
verificación para medir
en que se recopilan los datos.
los resultados finales y
los resultados Como se señaló en el capítulo 15, en el contexto de los cálculos de poten-
intermedios, así como cia, cuando las muestras son relativamente pequeñas, algunos indicadores
los beneficios y la pueden no ser adecuados para la evaluación de impacto. Detectar el impacto
calidad de implemen- de una intervención cuyos indicadores son extremadamente variables, se
tación del programa. refieren a sucesos poco frecuentes o solo se ven afectados de forma margi-
nal por la intervención, puede requerir muestras demasiado grandes. Por
ejemplo, solo será posible determinar el impacto de una intervención sobre
las tasas de mortalidad materna si se dispone de una muestra de decenas de
miles de mujeres embarazadas, dado que la mortalidad es (afortunadamente)
un hecho excepcional. En ese caso, puede que sea necesario replantear la
evaluación de impacto y focalizarla en indicadores más intermedios,
relacionados con los resultados finales, pero para los cuales hay suficiente
potencia como para detectar efectos. En el caso de una intervención cuyo
fin es reducir la mortalidad materna, un indicador intermedio podría estar
vinculado con la utilización de los servicios de salud durante el embarazo, y
con los partos en los centros de salud, que están asociados con la mortali-
dad. Los cálculos de potencia analizados en el capítulo 15 pueden contri-
buir a arrojar luz sobre los indicadores en los que se detectan impactos y
aquellos en los que puede ser más difícil detectar impactos sin muestras
muy grandes.
Datos sobre las actividades y productos del programa. También se requie-
ren indicadores para la parte de la cadena de resultados que describe las
actividades y productos del programa. Concretamente, los datos de monito-
reo del programa pueden proporcionar información esencial sobre las pres-
taciones de la intervención. En particular, los datos de monitoreo incluyen
definiciones sobre quiénes son los beneficiarios y qué beneficios o produc-
tos del programa pueden haber recibido. Como mínimo, se necesitan datos
de monitoreo para saber cuándo comienza un programa y quién recibe
beneficios, así como para proporcionar una medida de la intensidad o cali-
dad de la intervención. Esto es particularmente importante en los casos en
que un programa puede no llegar a todos los beneficiarios con el mismo
contenido, calidad o duración. Es esencial tener una comprensión adecuada
de la medida en que la intervención se ha implementado siguiendo el diseño,
para interpretar los resultados de la evaluación de impacto, lo que incluye
saber si destacan la efectividad del programa puesto en marcha según el
diseño o si hay deficiencias en su implementación.
Datos adicionales. Puede que se precisen otros datos para la evaluación
de impacto, lo cual depende de la metodología usada. Los datos sobre otros
factores que pueden influir en el resultado de interés pueden ser necesarios
para controlar por influencias externas. Este aspecto es particularmente
importante cuando se utilizan métodos de evaluación que dependen de más
supuestos que los métodos aleatorios. A veces también es necesario tener
datos sobre los resultados y otros factores a lo largo del tiempo para calcular
tendencias, como sucede con el método de diferencias en diferencias. Dar
cuenta de otros factores y tendencias anteriores también contribuye a
aumentar la potencia estadística. Incluso con la asignación aleatoria, los
datos sobre otras características pueden ayudar a estimar los efectos del tra-
tamiento con más precisión. También pueden ser utilizados para incluir
controles adicionales o analizar la heterogeneidad de los efectos del pro-
grama en características relevantes.
Encontrando fuentes adecuadas de datos 325
El diseño seleccionado para la evaluación de impacto también afectará a
los requisitos de datos. Por ejemplo, si se elige el método de pareamiento o
de diferencias en diferencias, habrá que recolectar datos sobre una gama
muy amplia de características para los grupos tanto de tratamiento como de
comparación, lo que hace posible ejecutar una serie de pruebas de robustez,
como se explicó en la segunda parte o en el capítulo 11 (véase el cuadro 11.2).
Para cada evaluación, resulta útil desarrollar una matriz que enumere las
preguntas de interés, los indicadores de resultado para cada pregunta y la
fuente de los datos, como se describe en el gráfico 2.1 del capítulo 2 sobre la
cadena de resultados. La elaboración de un plan de evaluación de impacto y
el contar con un plan de preanálisis constituyen otras oportunidades esen-
ciales para definir una lista precisa de indicadores clave requeridos en las
evaluaciones de impacto.
La utilización de datos cuantitativos existentes
Una de las primeras cuestiones que se debe considerar cuando se diseña una
evaluación de impacto es qué fuente de datos se utilizará. Una considera-
ción fundamental es si la evaluación de impacto dependerá de datos exis-
tentes o si requerirá la recopilación de datos nuevos.
Casi siempre se necesitan datos existentes al comienzo de una evaluación
de impacto para estimar los valores de referencia de los indicadores o para
efectuar cálculos de potencia, como se analizó en el capítulo 15. Después de
la fase de planificación, la disponibilidad de datos existentes puede dismi-
nuir de forma considerable el costo de una evaluación de impacto. Si bien es
probable que los datos existentes y, en particular los datos administrativos,
sean subutilizados en la evaluación de impacto en general, la viabilidad de
usar datos existentes en la evaluación de impacto tiene que ser valorada con
detenimiento.
De hecho, como se señaló en el capítulo 12, la recopilación de datos suele
representar el mayor costo de una evaluación de impacto. Sin embargo, para
determinar si los datos existentes se pueden utilizar en una determinada
evaluación de impacto, debe tenerse en cuenta una serie de preguntas:
• El muestreo. ¿Se dispone de datos existentes tanto para el grupo de trata-
miento como para el grupo de comparación? ¿Las muestras existentes se
han extraído de un marco muestral que coincide con la población de
interés? Las unidades del marco muestral, ¿se han obtenido mediante un
procedimiento de muestreo probabilístico?
• Tamaño de la muestra. ¿Las series de datos son suficientemente grandes
para detectar cambios en los indicadores de resultado con suficiente
potencia? La respuesta a esta pregunta depende de la elección de los
indicadores de resultado, así como de los resultados de los cálculos de
potencia tratados en el capítulo 15.
• Disponibilidad de datos de línea de base. ¿Los datos existentes disponibles
tanto para los grupos de tratamiento como de comparación son anterio-
res a la implementación del programa o de la innovación que se evalúa?
La disponibilidad de datos en línea de base es esencial para documentar
el equilibrio en las características previas del programa entre los grupos
de tratamiento y de comparación cuando se utilizan métodos aleatorios, y
son esenciales para la implementación de diseños cuasi experimentales.
• Frecuencia. ¿Los datos existentes son recopilados con suficiente fre-
cuencia? ¿Se dispone de ellos para todas las unidades de la muestra a lo
largo del tiempo, incluyendo los momentos en que hay que medir los
indicadores de resultado según la cadena de resultados y la lógica de la
intervención?
• Alcance. ¿Los datos existentes contienen todos los indicadores necesa-
rios para responder a las preguntas de interés de las políticas, incluyendo
los principales indicadores de resultado y los resultados intermedios de
interés?
• Vínculos con la información de monitoreo del programa. ¿Los datos exis-
tentes se pueden vincular a datos del monitoreo de la implementación
del programa, lo que implica observar qué unidades pertenecen a los gru-
pos de tratamiento y de comparación, y si todas las unidades asignadas al
grupo de tratamiento reciben los mismos beneficios?
• Identificadores únicos. ¿Existen identificadores únicos que vinculen dife-
rentes fuentes de datos?
Como lo subrayan las preguntas anteriores, los requisitos para los datos
existentes son bastante importantes, y no es habitual que los datos existen-
tes resulten suficientes para las evaluaciones de impacto. Aun así, con el
rápido crecimiento en el alcance y la cobertura de los sistemas de informa-
ción, y con la evolución general hacia un mundo en que los datos digitales de
una amplia gama de fuentes se almacenan de manera periódica, cada vez
más evaluaciones de impacto pueden contemplar el uso de datos existentes.
Se puede utilizar una gama de fuentes potenciales de datos existentes en las
evaluaciones de impacto, lo cual abarca datos censales, encuestas nacionales
o datos administrativos.
Los datos del censo de población pueden proporcionar información
exhaustiva sobre toda la población. Se pueden utilizar para las evaluacio-
nes de impacto cuando están disponibles en un nivel suficientemente
desagregado e incluyen detalles para saber qué unidades pertenecen al
grupo de tratamiento o de comparación, como los identificadores geográ-
ficos o personales. Los datos censales no se recopilan a menudo, y normal-
mente incluyen solo un pequeño conjunto de indicadores clave. Sin
embargo, en ocasiones dichos datos se recopilan para incluirse en sistemas
de información o registros que proporcionan la base para definir los obje-
tivos de los programas públicos, lo que incluye identificadores únicos que
pueden servir de soporte a vínculos con otras bases de datos existentes.
Las encuestas representativas a nivel nacional, como las encuestas de
hogares, las encuestas de medición de los niveles de vida, las encuestas de la
fuerza laboral, las encuestas demográficas y de salud, las encuestas de
empresas o las encuestas de instalaciones también se pueden contemplar.
Estas pueden contener un conjunto exhaustivo de variables de resultado,
pero rara vez cuentan con suficientes observaciones, tanto del grupo de
tratamiento como de comparación, para llevar a cabo una evaluación de
impacto. Supóngase, por ejemplo, que se desea evaluar un programa nacio-
nal de gran alcance que llega al 10% de los hogares en un determinado país.
Si una encuesta representativa a nivel nacional se lleva a cabo en 5.000
hogares cada año, esta puede contener alrededor de 500 hogares que reciben
el programa en cuestión. ¿Es la muestra lo bastante grande para llevar a cabo
una evaluación de impacto? Los cálculos de potencia pueden responder a
esta pregunta, pero en muchos casos la respuesta es negativa.
Además de determinar si se pueden utilizar las encuestas existentes,
también se debe averiguar si se están planificando nuevas iniciativas de
recopilación de datos nacionales. Si se planifica una encuesta que cubrirá
la población de interés, quizá también se pueda introducir una pregunta
o una serie de preguntas como parte de esa encuesta. Si ya se ha pla-
neado una encuesta que mide los indicadores requeridos, existe la
posibilidad de sobre muestrear una determinada población para asegu-
rar una cobertura adecuada en los grupos de tratamiento y comparación
y acomodar la evaluación de impacto. Por ejemplo, la evaluación del
Fondo Social de Nicaragua complementó un estudio nacional de medi-
ción de los niveles de vida con una muestra adicional de beneficiarios
(Pradhan y Rawlings, 2002).
Los datos administrativos suelen ser recopilados por organismos públicos
o agencias privadas como parte de sus operaciones regulares, normalmente
con cierta frecuencia, y a menudo para monitorear los servicios prestados o
registrar interacciones con los usuarios. En algunos casos, los datos admi-
nistrativos contienen los indicadores de resultado necesarios para una eva-
luación de impacto. Por ejemplo, los sistemas educativos cuentan con
registros de la matriculación y asistencia de los alumnos y de las calificacio-
nes de las pruebas, y también pueden recopilar información sobre los
insumos escolares y los maestros. De la misma manera, los sistemas de salud
pueden reunir datos sobre las características y localización de los centros de
salud, la oferta de servicios de salud y la asignación de recursos. También
pueden consolidar datos recopilados en centros de salud sobre los historia-
les médicos de los pacientes, datos antropométricos, historiales de vacuna-
ciones y, de manera más amplia, datos sobre la incidencia de las enfermedades
y estadísticas vitales. Las empresas de servicios públicos reúnen datos sobre
el consumo de agua o electricidad. Las agencias tributarias pueden recoger
datos sobre los ingresos y los impuestos. Los sistemas de transporte recopi-
lan datos sobre los pasajeros y los tiempos de viaje. Las empresas del sistema
financiero recopilan datos sobre las transacciones o el historial crediticio de
los clientes. Todas estas fuentes de datos existentes pueden ser potencial-
mente utilizadas en las evaluaciones de impacto. A veces incluyen series
temporales extensas, que pueden contribuir a seguir a las unidades a lo largo
del tiempo.
Es crucial realizar un diagnóstico de la disponibilidad y calidad de los
datos cuando se considera la posibilidad de utilizar datos administrativos.
En algunos casos, los datos de las fuentes administrativas pueden ser más
fiables que los datos de las encuestas. Por ejemplo, un estudio en Malawi
reveló que los encuestados daban información falsa sobre la asistencia y
matriculación escolar en una encuesta de hogares, en comparación con los
registros administrativos obtenidos en las escuelas; por lo tanto, los resul-
tados de la evaluación de impacto eran más fiables si se basaban en los
datos administrativos (Baird y Özler, 2012). Al mismo tiempo, en numero-
sos contextos, los datos administrativos son recopilados por un gran
número de proveedores y pueden ser de calidad desigual. Por lo tanto, su
fiabilidad debe valorarse detenidamente antes de tomar la decisión de tra-
bajar con datos administrativos en la evaluación de impacto. Un aspecto
crucial consiste en asegurar que existan identificadores únicos para vin-
cular los datos administrativos con otras fuentes de datos, incluyendo
datos sobre el monitoreo del programa que documentan qué unidades han
recibido los beneficios del programa. Cuando estos identificadores exis-
ten, como los números de identificación nacional usados de manera
consistente, se puede evitar una gran cantidad de trabajo para preparar y
limpiar los datos. En todos los casos, la protección de la confidencialidad
es una parte importante de la preparación de los datos y del protocolo de
gestión de datos. Los principios éticos que rigen la protección de sujetos
humanos (véase el debate en el capítulo 13) también rigen el uso que se
hace de datos existentes.
Algunas evaluaciones retrospectivas influyentes han trabajado con
registros administrativos: Galiani, Gertler y Schargrodsky (2005), sobre
la política de aguas en Argentina; Ferraz y Finan (2008) sobre auditorías y
desempeño de los políticos, y Chetty, Friedman y Sáez (2013) sobre los crédi-
tos fiscales en Estados Unidos. En el recuadro 16.1 se presenta un ejemplo de
evaluación de impacto de salud en Argentina. Por su parte, el recuadro 16.2
ilustra el uso de datos administrativos en la evaluación de impacto de un
programa de transferencias monetarias en Honduras.
En algunos casos, los datos requeridos para la evaluación de impacto se
pueden recopilar implementando nuevos sistemas de información o de
datos administrativos. Esta implementación se puede coordinar con la de un
diseño de evaluación, de modo que los indicadores de resultado se recopilen
para un grupo de tratamiento y un grupo de comparación en múltiples
Recuadro 16.1: Elaboración de una base de datos en la evaluación

del Plan Nacer de Argentina
Al evaluar el programa de financiamiento de la registros farmacéuticos, el censo de pobla-
salud basado en resultados de Argentina, Plan ción de 2001 e información geográfica de los
Nacer, Gertler, Giovagnoli y Martínez (2014) centros de salud. La obtención de historiales
combinaron datos administrativos de diversas médicos de los nacimientos individuales en
fuentes para formar una base de datos grande los hospitales de maternidad fue una de las
y exhaustiva para el análisis. Después de la tareas más difíciles. Cada hospital de mater-
falta de éxito de diversas estrategias de eva- nidad recopilaba datos sobre la atención pre-
luación anteriores, los investigadores adopta- natal y los resultados al nacer, pero solo
ron un enfoque de variables instrumentales. cerca de la mitad de los registros estaban
Esto requirió una cantidad sustancial de datos digitalizados. El resto se componía de docu-
del universo de los registros de nacimientos mentos en papel, por lo que el equipo de eva-
de las siete provincias estudiadas. luación tuvo que ingresar los registros en
Los investigadores necesitaban datos papel en el sistema computarizado.
sobre la atención prenatal y los resultados al El equipo compiló una base de datos
nacer, que se podían encontrar en los regis- exhaustiva del 78% de los nacimientos ocu-
tros de nacimientos de los hospitales públi- rridos durante el período de evaluación. Esto
cos. Luego tuvieron que determinar si la generó una base de datos grande que les
madre era beneficiaria del Plan Nacer y si la permitió examinar el impacto del Plan Nacer
clínica que visitaba estaba incorporada en el en sucesos relativamente raros, como la
programa en el momento de la visita. Para mortalidad neonatal. Normalmente, esto no
construir una base de datos con toda esta es posible en las evaluaciones con muestras
información, el equipo de evaluación vinculó más pequeñas recopiladas a través de
cinco diferentes fuentes de datos, inclu- encuestas. La evaluación determinó que los
yendo las bases de datos de los hospitales beneficiarios del Plan Nacer tenían una proba-
públicos de maternidad, los datos de imple- bilidad un 74% menor de mortalidad neonatal
mentación del programa Plan Nacer, los en el hospital que los no beneficiarios.
Fuente: Gertler, Giovagnoli y Martínez (2014).

Recuadro 16.2: Utilización de datos censales para reevaluar el
PRAF en Honduras
El objetivo del Programa de Asignación investigadores un tamaño muestral más
Familiar (PRAF), de Honduras, es mejorar grande, lo que les permitió poner a prueba la
los resultados educativos y de salud de los robustez de los hallazgos, además de los
niños pequeños que viven en condiciones efectos de derrame. Por otro lado, dado que
de pobreza. Proporciona transferencias contaban con datos del censo de todos los
monetarias a hogares elegibles en función municipios, pudieron aplicar dos diseños de
de la asistencia escolar y de las visitas a un regresión discontinua diferentes utilizando
centro de salud de manera regular. El pro- grupos de comparación alternados. Para el
grama comenzó en 1990. Un componente primer diseño de regresión discontinua, utili-
de la evaluación se incluyó en la segunda zaron el umbral de elegibilidad; para el
fase del PRAF en 1998. Glewwe y Olinto segundo, los límites del municipio.
(2004) y Morris et al. (2004) informaron de Al igual que en las evaluaciones de
impactos positivos en los resultados en edu- impacto anteriores, Galiani y McEwan
cación y salud. encontraron impactos positivos y estadísti-
Varios años más tarde, Galiani y McEwan camente significativos a partir del programa.
(2013) reevaluaron el impacto del programa, Sin embargo, sus estimaciones indicaban
utilizando una fuente de datos diferente. que el PRAF había tenido un impacto mucho
Mientras que la evaluación de impacto origi- mayor que el impacto encontrado en la eva-
nal había recopilado datos de encuesta de luación original. Observaron que el PRAF
70 municipios sobre un total de 298, Galiani aumentaba la matriculación escolar en los
y McEwan utilizaron datos del censo de niños elegibles en un 12% más que en el
Honduras de 2001. Así, fusionaron los datos grupo de comparación. Los resultados de
individuales y de los hogares del censo con los diseños de regresión discontinua alterna-
los datos a nivel municipal sobre las comuni- dos generalmente confirman la robustez de
dades tratadas. Esto proporcionó a los las conclusiones.
Fuente: Galiani y McEwan (2013).
ocasiones. Puede que la puesta en marcha de sistemas de información se

produzca antes de lanzar las nuevas intervenciones, de modo que los cen-
tros administrativos en el grupo de comparación utilicen el nuevo sistema
de información antes de recibir la intervención que se evalúa. Dado que la
calidad de los datos administrativos puede variar, requieren una auditoría y
una verificación externa para garantizar la fiabilidad de la evaluación.
Recoger datos de la evaluación de impacto a través de fuentes administrati-
vas en lugar de hacerlo a través de encuestas puede reducir drásticamente el
costo de una evaluación, pero no siempre es viable.
Auncuando los datos existentes no sean suficientes paratoda la evaluación
de impacto, a veces pueden ser utilizados en partes de la evaluación.
Por ejemplo, en algunos casos, los programas recopilan datos detallados
sobre beneficiarios potenciales para definir quién es elegible. O puede que
los datos del censo estén disponibles poco antes de que un programa se
implemente. En esos casos, los datos existentes a veces pueden ser utilizados
para documentar un equilibrio de línea de base, en las características ante-
riores al programa, entre los grupos de tratamiento y comparación, aunque
se seguirían necesitando datos de seguimiento adicionales para medir un
conjunto más amplio de indicadores de resultados.
La recopilación de datos de nuevas encuestas
Los datos existentes son suficientes para toda una evaluación de impacto
solo en casos relativamente raros. Si los datos administrativos no son
suficientes para la evaluación, muy posiblemente habrá que depender de
datos de encuestas. Como consecuencia, lo más probable es que se tenga que
presupuestar la recopilación de nuevos datos. A pesar de que la recopilación
de datos suele implicar el mayor costo de una evaluación de impacto, tam-
bién puede ser una inversión de alto retorno de la que a menudo depende la
calidad de la evaluación. La recopilación de nuevos datos proporciona la fle-
xibilidad para garantizar que se midan todos los indicadores necesarios para
una evaluación integral del desempeño del programa.
La mayoría de las evaluaciones de impacto requieren recopilar datos de
encuestas, incluyendo al menos una encuesta de línea de base antes de la
intervención o innovación que se evalúa, y una encuesta de seguimiento
después de que se ha implementado la intervención. Los datos de las encues-
tas pueden ser de diversos tipos, en función del programa que se evalúa y de
la unidad de análisis. Por ejemplo, las encuestas de empresas utilizan a las
firmas como la principal unidad de observación, las encuestas de instalacio-
nes utilizan los centros de salud o las escuelas como la principal unidad de
observación, y las encuestas de hogares utilizan los hogares como la princi-
pal unidad de observación. La mayoría de las evaluaciones dependen de
encuestas individuales o de hogares como fuente primaria de datos. En esta
sección, se revisan algunos principios generales de la recopilación de datos
de las encuestas. Aunque estos se refieren sobre todo a las encuestas de
hogares, los mismos principios son válidos para la mayoría de otros tipos de
datos de encuestas.
El primer paso para decidir si utilizar los datos existentes o recopilar
nuevos datos mediante encuestas será determinar el enfoque del muestreo,
así como el tamaño necesario de la muestra (como se analizó en el
capítulo 15). Una vez que se decida recopilar datos de encuestas para la
evaluación, habrá que:
• Determinar quién recopilará los datos.
• Desarrollar y poner a prueba el instrumento de recopilación de datos.
• Llevar a cabo un trabajo de campo y realizar el control de calidad.
• Procesar y almacenar los datos.
La implementación de estos diversos pasos se suele contratar, pero es esen-
cial que se comprendan su alcance y sus componentes clave para poder
gestionar efectivamente una evaluación de impacto de calidad.
Determinar quién recopilará los datos
Es necesario designar con antelación a la agencia encargada de recopilar los

datos. Al momento de decidir quién lo haría, habrá varias consideraciones.
Los candidatos potenciales para esta tarea son:
• La institución a cargo de implementar el programa.
• Otra institución gubernamental con experiencia en la recopilación de
datos (como una agencia estadística nacional).
• Una empresa independiente o institución especializada en recopilación
de datos.
La entidad que recopile los datos siempre tiene que coordinarse estrecha-
mente con el organismo que implemente el programa. Se requiere una estre-
cha coordinación para garantizar que las operaciones del programa no se
pongan en marcha antes de recopilar los datos de línea de base. Cuando se
necesitan datos de línea de base para el funcionamiento del programa (por
ejemplo, datos para un índice de focalización, en el contexto de una evalua-
ción basada en un diseño de regresión discontinua), la entidad encargada de
la recopilación de datos debe ser capaz de procesar los mismos rápidamente
y transmitirlos a la institución encargada de las operaciones del programa.
También se requiere una coordinación estrecha de la programación de la
recopilación de datos de la encuesta de seguimiento. Por ejemplo, si se ha
elegido una implementación con asignación aleatoria, la encuesta de segui-
miento debe llevarse a cabo antes de que el programa se ponga en marcha en
el grupo de comparación, para evitar la contaminación.
Un factor sumamente importante en la decisión de quién recopilará los
datos es la utilización de los mismos procedimientos de recopilación de
datos en los grupos de comparación y de tratamiento. A menudo la agencia
de implementación tiene contacto solo con el grupo de tratamiento y no está
en una buena posición para recopilar datos de los grupos de comparación.
Sin embargo, utilizar diferentes organismos de recopilación de datos para
los grupos de tratamiento y de comparación es muy riesgoso, dado que esto
puede crear diferencias en los resultados medidos en los dos grupos senci-
Concepto clave llamente porque los procedimientos de recopilación de datos son diferen-
Deben utilizarse los tes. Si la agencia ejecutora no puede recopilar datos efectivamente de los
mismos procedimien- grupos de tratamiento y de comparación, debería contemplarse seriamente
tos de recopilación de la posibilidad de contratar una institución o agencia externa.
datos tanto en los
En algunos contextos, también puede ser recomendable contratar una
grupos de comparación
como de tratamiento. agencia independiente para recoger los datos con el fin de garantizar que
estos se consideren objetivos. Puede que no se justifiquen las preocupacio-
nes de que la agencia ejecutora del programa no recopile datos objetivos,
pero un organismo de recopilación de datos independiente que no tiene
intereses en juego en los resultados de la evaluación añade credibilidad al
esfuerzo general de evaluación de impacto. También puede garantizar que
los encuestados no perciban la encuesta como parte del programa y, de esta
manera, se minimiza el riesgo de que los encuestados den respuestas estra-
tégicas intentando aumentar lo que perciben como la posibilidad de partici-
par en un programa.
Dado que la recopilación de datos comprende una secuencia compleja de
operaciones, se recomienda que una entidad especializada y experimentada
sea la responsable. Hay pocos organismos ejecutores de programas con sufi-
ciente experiencia para recopilar los datos a gran escala y preservar la cali-
dad, ambos criterios necesarios parauna evaluación de impacto.En la mayoría
de los casos, se tendrá que pensar en contratar a una institución local, como
una agencia estadística nacional o una empresa o think tank especializados.
La contratación de una institución local, como una agencia estadística
nacional, puede exponer a la institución a los estudios de evaluación de
impacto y contribuir a mejorar su capacidad, lo cual en sí mismo puede ser
un beneficio secundario de la evaluación de impacto. Sin embargo, las agen-
cias estadísticas nacionales no siempre tendrán la capacidad logística para
asumir otros encargos además de sus actividades regulares. Puede que tam-
bién carezcan de la experiencia necesaria para llevar a cabo encuestas para
las evaluaciones de impacto, como la experiencia de efectuar un seguimiento
exitoso de los individuos a lo largo del tiempo, o para aplicar instrumentos
de encuesta no tradicionales. Si estas limitaciones aparecen, contratar una
empresa independiente o institución especializada en recopilación de datos
puede ser lo más práctico.
No siempre es necesario que sea la misma entidad la que recopila infor-
mación de las encuestas de línea de base y de seguimiento, dado que pueden
variar en su alcance. Por ejemplo, en una evaluación de impacto de un pro-
grama de capacitación cuya población de interés está compuesta por los indi-
viduos que se inscribieron en el curso, la institución a cargo del curso podría
recopilar los datos de línea de base cuando los individuos se inscriben.
Sin embargo, es poco probable que la misma agencia también sea la mejor
opción para recopilar información de seguimiento, tanto para los grupos de
tratamiento como de comparación. En este contexto, contratar rondas de
recopilación de datos por separado tiene sus ventajas, pero se debería hacer
un esfuerzo para no perder información entre las rondas, información que
será útil para hacer un seguimiento de los hogares o de los individuos, así
como para asegurar que los datos de línea de base y de seguimiento se midan
de manera consistente.
A fin de decidir cuál es la mejor institución para recopilar los datos de la
evaluación de impacto, deben sopesarse todos estos factores (experiencia en
la recopilación de datos, capacidad de coordinar con la agencia ejecutora del
programa, independencia, oportunidades para la mejora de capacidades,
adaptabilidad al contexto de la evaluación de impacto), junto con el costo
previsto y la probable calidad de los datos obtenidos en cada caso. Una
manera efectiva de identificar la organización mejor situada para recopilar
datos de calidad consiste en redactar términos de referencia claros y pedir a
las organizaciones que presenten propuestas técnicas y financieras.
Dado que la entrega oportuna y la calidad de los datos suelen ser cruciales
para la fiabilidad de la evaluación de impacto, el contrato para la agencia
encargada de la recopilación de datos debe estructurarse con gran cuidado. El
alcance del trabajo previsto y los productos deben definirse con suma clari-
dad. Además, se recomienda introducir incentivos en los contratos y vincular
esos incentivos a indicadores claros de la calidad de los datos. Por ejemplo, la
tasa de falta de respuesta es un indicador clave de la calidad de los datos. Para
crear incentivos con el fin de que las agencias de recopilación de datos mini-
micen las no respuestas, el contrato puede estipular un costo unitario para el
primer 80% de la muestra, un costo unitario superior para las unidades de
entre el 80% y el 90% y, una vez más, un costo unitario superior para las uni-
dades de entre el 90% y el 100%. Como alternativa, se puede redactar un con-
trato por separado para que la empresa encuestadora realice un seguimiento
de los no encuestados. Además, el contrato de la empresa de recopilación de
datos puede incluir incentivos o condiciones relacionadas con la verificación
de la calidad de los datos, como comprobaciones externas o auditorías de cali-
dad de una submuestra de la encuesta de evaluación de impacto.
La elaboración del instrumento de recopilación de datos y las

pruebas piloto
Al contratar la recopilación de datos, el equipo de evaluación desempeña un

rol clave proporcionando orientación específica sobre el contenido de los
instrumentos o cuestionarios de la recopilación de datos. Los instrumentos
de recopilación de datos deben obtener toda la información requerida para
responder a la pregunta de las políticas definida por la evaluación de
impacto. Como ya se ha señalado, los indicadores deben medirse a lo largo de
la cadena de resultados, lo que incluye los indicadores de los resultados fina-
les, los resultados intermedios y las medidas de los beneficios y la calidad de
la implementación del programa.
Es importante ser selectivo acerca de qué indicadores medir. Ser selectivo
contribuye a limitar los costos de recopilación de datos, simplifica la tarea de
la agencia de recopilación y mejora la calidad de los datos recopilados mini-
mizando las demandas de tiempo para encuestadores y encuestados. La
recopilación de información que es irrelevante o que probablemente no se
utilizará tiene un costo muy alto. Los datos adicionales requieren más tiempo
de preparación, capacitación, recopilación y procesamiento. Con una dispo-
nibilidad y una capacidad de atención limitadas, puede que los encuestados
proporcionen información de calidad cada vez más inferior a medida que la
encuesta avanza, y los entrevistadores tendrán incentivos extra para ahorrar
tiempo con el fin de cumplir con sus objetivos de la encuesta. Por lo tanto, las
preguntas superfluas no son “gratis”. Tener objetivos claros para la evalua-
ción de impacto, alineados con objetivos del programa bien definidos, puede
ayudar a priorizar la información necesaria. Un plan de preanálisis elabo-
rado con antelación (véanse los detalles en los capítulos 12 y 13) contribuirá
a asegurar que la encuesta recopile los datos requeridos para el análisis de
impacto y evitar la inclusión de información superflua (y costosa).
Es preferible recopilar datos sobre los indicadores de resultado y las
características de control de manera consistente en la línea de base y en el
seguimiento. Contar con datos de línea de base es sumamente recomenda-
ble. Aun cuando se utilice una asignación aleatoria o un diseño de regresión
discontinua, donde en principio se pueden usar sencillas diferencias des-
pués de la intervención para estimar el impacto de un programa, los datos de
línea de base son esenciales para probar si el diseño de la evaluación de
impacto es adecuado (véase el debate en la segunda parte). Contar con datos
de línea de base puede servir como póliza de seguro cuando la asignación
aleatoria no funciona, en cuyo caso se pueden utilizar métodos de diferen-
cias en diferencias como alternativa. Los datos de línea de base también son
útiles durante la etapa de análisis del impacto, dado que las variables de con-
trol de línea de base pueden contribuir a aumentar la potencia estadística y
permitir analizar impactos en diferentes subpoblaciones. Por último, los
datos de línea de base pueden utilizarse para mejorar el diseño del pro-
grama. Por ejemplo, los datos de línea de base a veces permiten analizar la
eficiencia focalizada o proporcionan información adicional sobre los bene-
ficiarios a la agencia que implementa el programa. En algunos casos, la
encuesta de seguimiento puede incluir un conjunto más amplio de indica-
dores que la encuesta de línea de base.
Una vez que se han definido los datos centrales que se debe recopilar, el Concepto clave
próximo paso consiste en determinar exactamente cómo medir esos indica- La medición de los
dores. La medición es un arte en sí misma y es preferible que de ella se ocu- indicadores es un arte
y es necesario que sea
pen los especialistas, entre los cuales se hallan el equipo de investigación de
gestionada por los
la evaluación de impacto, la agencia contratada para recopilar datos, los especialistas, entre
expertos de las encuestas y los expertos en la medición de indicadores com- ellos: el equipo de
plejos específicos. Los indicadores de resultado deberían ser lo más consis- investigación de la
tentes posible con las mejores prácticas locales e internacionales. Siempre evaluación de impacto,
es útil tener en cuenta cómo los indicadores de interés han sido medidos en la agencia contratada
para recopilar datos,
encuestas similares, tanto a nivel local como internacional. Utilizar los mis-
los expertos de
mos indicadores (lo que incluye los mismos módulos o preguntas de las encuestas y los
encuestas) garantiza la comparabilidad entre los datos preexistentes y los expertos en la
datos recopilados para la evaluación de impacto. Elegir un indicador que no medición de
sea plenamente comparable o no esté bien medido puede limitar la utilidad indicadores específicos
de los resultados de la evaluación. En algunos casos, puede que tenga sen- complejos.
tido invertir los recursos necesarios para recopilar el nuevo indicador de
resultado “innovador”, así como una alternativa más establecida.
Se debe prestar particular atención para asegurar que todos los indicado-
res se puedan medir exactamente de la misma manera para todas las unida-
des tanto del grupo de tratamiento como de comparación. La utilización de
diferentes métodos de recopilación de datos (por ejemplo, una encuesta
telefónica para un grupo y una encuesta presencial para otro) crea el riesgo
de generar sesgos. Lo mismo sucede con la recopilación de datos en diferen-
tes momentos para los dos grupos (por ejemplo, recopilar datos para el
grupo de tratamiento durante la estación de lluvias y para el grupo de com-
paración durante la estación seca). Por esto, los procedimientos empleados
para medir cualquier indicador de resultado deberían formularse con suma
precisión. El proceso de recopilación de datos debe ser exactamente el
mismo para todas las unidades. En un cuestionario, cada módulo relacio-
nado con el programa debe introducirse sin afectar el flujo o la formulación
de las respuestas en otras partes del cuestionario. De hecho, cuando sea
posible, es preferible evitar hacer cualquier distinción entre los grupos de
tratamiento y comparación en el proceso de recopilación de datos. En la
mayoría de los casos, la agencia que lleve a cabo la recopilación (o al menos
los encuestadores individuales) no debe tener motivos para conocer la con-
dición de tratamiento o de comparación de los individuos en la encuesta.
Una decisión crucial que hay que tomar se relaciona con la forma de
medir los indicadores de resultados, es decir: si se hace mediante encuestas
tradicionales basadas en cuestionarios y preguntas auto-reportadas o a tra-
vés de otros métodos. En los últimos años, se han producido varios avances
para medir resultados o conductas clave que son relevantes en las evaluacio-
nes de impacto. Los avances incluyen el perfeccionamiento de los métodos
para recopilar datos auto-reportados mediante cuestionarios, así como
técnicas para medir directamente los resultados clave.
El diseño del cuestionario ha sido objeto de importantes investigaciones.
Se han escrito libros enteros sobre la mejor manera de medir indicadores
particulares en contextos específicos, incluyendo cómo redactar las pregun-
tas formuladas en las encuestas de hogares.1 También hay una base de evi-
dencia creciente sobre la mejor manera de diseñar cuestionarios para
recopilar datos agrícolas, datos sobre el consumo o datos de empleo para
maximizar su precisión.2 Parte de la evidencia reciente proviene de experi-
mentos aleatorios que prueban diferentes maneras de estructurar cuestio-
narios y comparar su fiabilidad.3 De la misma manera, el diseño del
cuestionario requiere prestar atención a las mejores prácticas internaciona-
les y a las experiencias locales en materia de medición de indicadores.
Pequeños cambios en la redacción o en la secuencia de las preguntas pueden
tener efectos sustanciales en los datos recopilados, de modo que en el desa-
rrollo del cuestionario es esencial prestar atención a los detalles. Esto es
especialmente importante cuando se intenta asegurar la comparabilidad
entre diferentes encuestas, lo que implica, por ejemplo, medir los resultados
repetidas veces a lo largo del tiempo. El recuadro 16.3 aborda las directrices
relacionadas con el diseño del cuestionario y proporciona otras referencias.
Recuadro 16.3: Diseño y formato de los cuestionarios

Aunque el diseño del cuestionario en las partes interesadas pertinentes, y dedicar
evaluaciones de impacto es una parte inte- tiempo suficiente a las iteraciones repetidas
gral de la calidad de los datos, a menudo se y a pruebas rigurosas:
lo ignora. El diseño de un cuestionario es un
1. Contenido. Se determina el contenido de
proceso complejo, extenso e iterativo que
una encuesta empezando por definir los
comprende numerosas decisiones a lo largo
efectos que hay que medir, las unidades
del camino a propósito de lo que se puede
de observación y las correlaciones con
medir y cómo medirlo. El curso de métodos
otros factores. Estas definiciones con-
de evaluación de impacto aplicada de la
ceptuales luego tendrán que ser traduci-
Universidad de California, Berkeley (http://
das en indicadores concretos.
aie.cega.org) proporciona una guía para el
diseño del cuestionario, en el cual destacan 2. Redacción. Se redactan las preguntas
tres fases: contenido, redacción y puesta a para medir los indicadores selecciona-
prueba. A lo largo de estas fases, el módulo dos. Se trata de un paso crucial, dado que
subraya la importancia de involucrar a las la calidad de los datos depende de ello.

Recuadro 16.3: Diseño y formato de los cuestionarios (continúa)
El módulo ofrece recomendaciones más entrevistador se pueda referir a la definición

detalladas sobre la redacción de las pre- durante la entrevista si fuera necesario.
guntas, la organización de la encuesta, el
3. Las preguntas deben ser lo más breves y
formato y otras consideraciones clave.
sencillas posible, y deben utilizar un len-
3. Pruebas. El cuestionario es probado en guaje común y comprensible.
tres niveles: la pregunta, el módulo y el
4. Los cuestionarios deben diseñarse de
conjunto de la encuesta.
manera que las respuestas a casi todas
El formato del cuestionario también es las preguntas estén precodificadas.
importante para asegurar datos de calidad.
5. El esquema de la codificación de las
Dado que diferentes maneras de formular la
respuestas debería ser consistente en
misma pregunta en la encuesta puede
todas las preguntas.
generar respuestas diferentes, tanto el
marco como el formato de las preguntas 6. La encuesta debería incluir patrones
debería ser el mismo para todas las unida- de salto, que indican qué preguntas no
des con el fin de evitar sesgos de los deberían formularse, sobre la base de
encuestados o los encuestadores. Naciones las respuestas dadas a las preguntas
Unidas (2005) formula seis recomendacio- anteriores.
nes específicas en relación con el formato
Una vez que la persona encargada para
de los cuestionarios en las encuestas de
trabajar en el instrumento ha redactado un
hogares. Estas recomendaciones se aplican
cuestionario, este debe presentarse a un
también a la mayoría de los demás instru-
equipo de expertos para ser debatido. Se
mentos de recopilación de datos:
debe consultar a todos los que participan en
1. Se debe redactar cada pregunta detallada- el equipo de evaluación (responsables de las
mente en el cuestionario de manera que políticas, investigadores, analistas de datos y
el entrevistador pueda dirigir la entrevista recopiladores de datos) a propósito de si el
leyendo cada pregunta palabra por palabra. cuestionario recoge toda la información que
se desea, de manera adecuada. La revisión
2. El cuestionario debe incluir definiciones
de un equipo de expertos es necesaria pero
precisas de todos los conceptos clave
no suficiente, dado que la puesta a prueba
utilizados en la encuesta, de modo que el
intensiva en el terreno siempre es primordial.
Se ha ido desarrollado cada vez más un conjunto de técnicas para

obtener la medición directa de resultados. Por ejemplo, en el sector de la
salud, a veces se utilizan casos clínicos para presentar síntomas concretos
a los trabajadores de la salud y evaluar si el proveedor recomienda el
tratamiento adecuado sobre la base de directrices y protocolos estableci-
dos. Estos casos clínicos proporcionan una medida directa de los
conocimientos de los proveedores de la salud. Las evaluaciones recientes
cuentan con pacientes estandarizados (también conocidos como pacien-
tes de incógnito o simulados) que visitan los centros de salud y evalúan
directamente la calidad de los servicios prestados.4 En el sector de educa-
ción, numerosas evaluaciones pretenden calcular los impactos de los pro-
gramas en el aprendizaje de los alumnos. Para ello, se utiliza una gama de
evaluaciones del aprendizaje o mediciones directas de las habilidades de
los alumnos. También se han desarrollado varias baterías de pruebas para
medir directamente el desarrollo cognitivo, lingüístico o motor de los
niños pequeños en el contexto de las evaluaciones de impacto de las
intervenciones de desarrollo infantil temprano (DIT). Asimismo, se ha
progresado en la obtención de mediciones directas de las habilidades de
los adultos, incluidas las habilidades socioemocionales o los rasgos de la
personalidad. Además de la medición directa de las habilidades, un
número creciente de evaluaciones de impacto apunta a obtener medicio-
nes de la calidad de la enseñanza a través de las observaciones directas de
la conducta de los profesores en el aula.
La observación directa de resultados clave es particularmente importante
cuando se hace difícil obtener verazmente los resultados de interés de parte
de los encuestados. Por ejemplo, para evitar depender de los datos auto-
reportados para medir los resultados relacionados con los delitos o la violen-
cia, algunas evaluaciones de impacto han incorporado investigadores
capacitados en las comunidades de la muestra para que observen directa-
mente la conducta de los sujetos con métodos etnográficos. Esta observación
directa puede eludir los problemas relacionados con conductas auto-repor-
tadas y proporcionar una información más precisa cuando se lleva a cabo
adecuadamente. Los recientes avances tecnológicos también permiten
mediciones directas de toda una gama de conductas humanas y, por lo tanto,
pueden contribuir a limitar el uso de datos auto-reportados. Entre otros
ejemplos, cabe señalar la observación directa de la programación en el
tiempo y la intensidad en el uso de cocinas mejoradas, y las mediciones
directas de la calidad del agua, del uso de letrinas y de la temperatura interior
utilizando sensores electrónicos.
Las evaluaciones de impacto suelen depender de una mezcla de encues-
tas basadas en cuestionarios tradicionales y otros métodos con los que
observar directamente los resultados de interés. Por ejemplo, en el contexto
de la evaluación de impacto del financiamiento basado en resultados en el
sector de la salud, se mide una gama de indicadores a través de fuentes com-
plementarias (Vermeersch, Rothenbühler y Sturdy, 2012). Una encuesta de
un centro de salud comprende una evaluación del centro para medir sus
principales características, una entrevista con un trabajador de la salud para
estimar las características de este, y entrevistas de salida con los pacientes
para valorar los servicios prestados, así como indicadores de la calidad de
los cuidados mediante una mezcla de casos clínicos y observación directa.
Las encuestas de hogares incluyen datos a nivel de los hogares sobre la
conducta de estos y de los individuos, como la frecuencia de las visitas al
centro, los cuidados recibidos y los gastos en salud, así como también módu-
los a nivel individual de la salud de las mujeres y de los niños. Además de
mediciones antropométricas, se realizan pruebas biomédicas para medir
directamente la prevalencia de la anemia, la malaria o el VIH. Por último, los
cuestionarios de las comunidades capturan características de la comunidad,
los servicios, la infraestructura, el acceso a los mercados, los precios y los
shocks a nivel comunitario.
Además de desarrollar indicadores y encontrar la manera más adecuada
para medirlos, otra decisión clave al recopilar nuevos datos es la tecnología
de recopilación utilizada. Los métodos tradicionales recopilan los datos en
papel y luego los digitalizan, a menudo mediante un enfoque de entrada de
datos de doble ciego, que implica la presencia de dos agentes que digitan la
misma información por separado antes de comparar los datos para verifi-
car las imprecisiones. Con los recientes avances tecnológicos, los instru-
mentos de recopilación de datos asistidos por computador se han vuelto
prevalentes. La recopilación de datos mediante aplicaciones instaladas en
teléfonos inteligentes o Tablets puede acelerar el procesamiento de datos,
y al mismo tiempo proporciona oportunidades para realizar verificaciones
de la calidad de los datos y validarlos en tiempo real. En el recuadro 16.4 se
abordan algunas de las ventajas y desventajas de la recopilación electrónica
de datos.
Es sumamente importante que el instrumento de recopilación de datos
sea probado en el terreno extensamente antes de finalizar. La realización
de pruebas piloto amplias del instrumento pondrá a prueba su adecuación
al contexto local y su contenido, y cualquier formato y opciones de redac-
ción alternativas, así como también los protocolos de recopilación de datos,
incluida la tecnología. Probar el instrumento de recopilación de datos en
pruebas en el terreno es crucial para chequear su duración y para verificar
que su formato sea suficientemente consistente y exhaustivo para producir
mediciones precisas de toda la información relevante. Las pruebas en el
terreno constituyen una parte integral de la elaboración de los instrumen-
tos de recopilación de datos.
Dirección del trabajo de campo y gestión del control de calidad
Aun cuando se contrate la recopilación de datos con una entidad externa, es

crucial tener una comprensión clara de todos los pasos involucrados en este
proceso para garantizar que se hayan establecido los mecanismos de control
Recuadro 16.4: Algunas ventajas y desventajas de la recopilación
electrónica de datos
Las entrevistas personales asistidas por Por ejemplo, Fafchamps et al. (2012)
computador (CAPI, por sus siglas en inglés, estudiaron los beneficios del control
computer-assisted personal interviewing) de la consistencia en una encuesta de
brindan una alternativa a las entrevistas tradi- microempresas en Ghana. Observaron
cionales de lápiz y papel (PAPI, pen-and-paper que cuando se introducían los controles
interviewing). En las CAPI, primero se desde consistencia, la desviación estándar
carga la encuesta en un aparato electrónico, de los datos sobre beneficios y ventas
como una Tablet o un teléfono inteligente. El era menor. Sin embargo, también obser-
entrevistador lee las preguntas en la pantalla varon que la mayor parte del tiempo no
e ingresa inmediatamente las respuestas en se requería una corrección: entre el 85%
el programa. Se han desarrollado diversos y el 97% de las veces, los encuestados
programas y aplicaciones para la recopilación confirmaban la respuesta original.
de datos en CAPI. No obstante, el equipo de E Las entrevistas pueden ser más breves y
evaluación debe considerar detenidamente más fáciles. Cuando se utilizan las CAPI, el
los pros y contras de las CAPI. flujo del cuestionario se puede personalizar
Algunas ventajas: para orientar mejor a los entrevistadores a
E La recopilación electrónica de datos través de patrones de salto, y minimizar
puede mejorar la calidad de los datos. En los errores y omisiones en el cuestionario.
un experimento aleatorio diseñado para En una encuesta de hogares conducida
comparar CAPI y PAPI para una encuesta en Tanzania, las entrevistas CAPI fueron,
sobre consumo en Tanzania, Caeyers, en promedio, un 10% más breves que
Chalmers y De Weerdt (2012) observaron los cuestionarios similares recopilados
que los datos de las encuestas en papel en papel, según las observaciones de
contenían errores que se evitaron en las Caeyers, Chalmers y De Weerdt (2012).
encuestas electrónicas. Los investiga- E La recopilación electrónica de datos eli-
dores descubrieron que los errores en mina la necesidad del reingreso manual
los datos del PAPI estaban correlacio- de los datos. Esto puede reducir costos y
nados con ciertas características de los acelerar el procesamiento.
hogares, lo cual puede crear sesgos en E El uso de la tecnología puede aportar una
algunos análisis de datos. gama de beneficios indirectos. Por ejem-
E Los programas de recopilación elec- plo, al utilizar Tablets o teléfonos inteligen-
trónica de datos pueden incluir sistemas tes, es fácil registrar las coordenadas de
de verificación de consistencia automa- GPS o tomar fotos. También se pueden
tizados. Ciertas respuestas pueden acti- introducir variaciones experimentales en
var mensajes de alerta de manera que el contenido de la encuesta. Con algunos
los errores de ingreso de los datos se programas, ciertas partes de la entrevista
minimizan y cualquier problema se aclara se pueden grabar con el fin de facilitar la
con el encuestado durante la entrevista. calidad y los controles del monitoreo.

Recuadro 16.4: Algunas ventajas y desventajas de la recopilación electrónica de datos (continúa)
Algunas desventajas: a veces esto se torna difícil de conseguir.

E Los costos fijos tienden ser más eleva- También es más arduo desarrollar pro-
dos en las CAPI que en las PAPI, aunque gramas para cuestionarios que no estén
los costos variables pueden ser más en inglés o en una lengua romance.
bajos. El costo inicial de comprar y pro- E Los problemas tecnológicos pueden per-
gramar los aparatos electrónicos puede turbar la recopilación de datos o dañar la
resultar demasiado alto para los presu- consolidación de datos en un sitio seguro.
puestos más pequeños de evaluación Pueden surgir problemas durante la
de impacto. También se necesita más recopilación de datos, cuando el aparato
tiempo al comienzo para asegurar una electrónico tiene una pantalla pequeña o
programación y pruebas adecuadas de los una interfaz con la que los entrevistado-
cuestionarios electrónicos, que a menudo res no están familiarizados. El riesgo de
se producen después de que ya se han robo también es mayor en el caso de los
elaborado los cuestionarios en papel. aparatos electrónicos en comparación
E Se requieren conocimientos técnicos con las encuestas en papel. Por último,
expertos específicos para programar la consolidación y sincronización de los
los cuestionarios electrónicos y crear datos en un sitio seguro requiere proto-
procesos para gestionar el flujo de datos colos claros para minimizar el riesgo de
recopilados electrónicamente. En los pérdida de datos. La transmisión elec-
países en desarrollo con baja capacidad en trónica de datos es conveniente pero
materia de tecnologías de la información, requiere un nivel mínimo de conectividad.
Fuente: Caeters, Chalmers y De Weerdt (2012); Fafchamps et al. (2012).
de calidad requeridos y los incentivos correctos. La entidad encargada de

recopilar los datos tendrá que coordinar el trabajo de un gran número
de actores diferentes, entre ellos los encuestadores, supervisores, coordina-
dores en el terreno y personal de apoyo logístico, además del equipo que
ingresa los datos, compuesto por los programadores, los supervisores y los
operadores del ingreso de datos. Debe establecerse un plan de trabajo claro
para coordinar la labor de todos estos equipos y ese plan de trabajo es un
elemento clave.
Antes de que comience la recopilación de datos, el plan de trabajo debe
incluir una capacitación adecuada del equipo de recopilación de datos. Se
debe elaborar un manual de referencia completo para la capacitación, el cual
debe utilizarse a lo largo del trabajo de campo. La capacitación es clave para
asegurar que todos los que participan recopilen los datos de manera consis-
tente. El proceso de capacitación también es una buena oportunidad para
identificar a los mejores encuestadores y para llevar a cabo una última prueba
piloto de los instrumentos y los procedimientos en condiciones normales. Una
vez que se haya elaborado la muestra, que los instrumentos hayan sido diseña-
dos y probados en pruebas piloto, y que los equipos hayan sido capacitados,
puede comenzar la recopilación de datos. Es una buena práctica asegurar que
el plan de trabajo de campo que tiene cada equipo de la encuesta recopile
datos sobre el mismo número de unidades de tratamiento y comparación.
Como se señaló en el capítulo 15, el muestreo adecuado es esencial para
asegurar la calidad de la muestra. Sin embargo, mientras se recopilan los datos
pueden producirse numerosos errores de no muestreo. En el contexto de una
evaluación de impacto, una preocupación particular es que aquellos errores
pueden no ser los mismos en los grupos de tratamiento y de comparación.
Concepto clave La falta de respuesta surge cuando se vuelve imposible recopilar todos los
La no respuesta surge datos para algunas unidades de la muestra. Dado que las muestras reales
cuando faltan datos o utilizadas para el análisis se limitan a aquellas unidades para las que se pue-
hay datos incompletos den recopilar datos, las unidades que deciden no responder a una encuesta
para algunas unidades pueden volver la muestra menos representativa y crear un sesgo en los
de la muestra. La no
resultados de la evaluación. El desgaste de la muestra es una forma habitual
respuesta puede crear
sesgos en los de no respuesta que se produce cuando algunas unidades abandonan la
resultados de la muestra entre las rondas de recopilación de datos; por ejemplo, los migran-
evaluación. tes, de los que es difícil hacer un seguimiento.
El desgaste de la muestra debido a la no respuesta es especialmente pro-
blemático en el contexto de las evaluaciones de impacto porque puede crear
diferencias entre el grupo de tratamiento y el grupo de comparación. Por
ejemplo, el desgaste de la muestra puede ser diferente en los dos grupos: si
los datos se recopilan después de que el programa ha comenzado a imple-
mentarse, la tasa de respuesta entre las unidades de tratamiento puede ser
más elevada que entre las unidades de comparación. Esto puede ocurrir por-
que estas últimas se muestran descontentas por no haber sido seleccionadas
o porque es más probable que migren. Las no respuestas también se pueden
producir en el propio cuestionario, normalmente porque faltan algunos
indicadores o porque los datos para una unidad particular son incompletos.
Los errores de medición constituyen otro tipo de problema, que puede
generar sesgos si tiene lugar de forma sistemática. El error de medición es la
diferencia entre el valor de una característicatal como la presenta el encuestado
y el valor verdadero (pero desconocido) (Kasprzyk, 2005). Esta diferencia se
explica por la manera en que el cuestionario está redactado o por el método de
recopilación de datos elegido, o puede producirse debido a los entrevistadores
que están llevando a cabo la encuesta o al encuestado que responde.
La calidad de la evaluación de impacto depende directamente de la
calidad de los datos recopilados. Es necesario especificar los estándares de
calidad para todas las partes interesadas en el proceso de recopilación de
datos; estos estándares deberían subrayarse particularmente durante la
capacitación de los encuestadores y en los manuales de referencia. Por Concepto clave
ejemplo, es esencial contar con procedimientos detallados para minimizar Las evaluaciones de
la no respuesta o (si es aceptable) reemplazar unidades en la muestra. La impacto con las
agencia de recopilación de datos debe entender claramente las tasas acepta- mejores prácticas
bles de no respuesta y de desgaste de la muestra. Como referencia, numero- intentan mantener la
no respuesta y el
sas evaluaciones de impacto se proponen mantener la no respuesta y el
desgaste en el nivel
desgaste por debajo del 5%. El objetivo dependerá de la programación en el más bajo posible.
tiempo de la evaluación de impacto y de la unidad de análisis: se esperaría
que el desgaste fuera menor en una encuesta que se produce poco después
de la encuesta de línea de base, y relativamente más alto para las evaluacio-
nes de impacto de largo plazo que siguen a los individuos muchos años más
tarde. También se esperarían tasas de desgaste más elevadas en las poblacio-
nes muy móviles. Los encuestados a veces son compensados para minimizar
la no respuesta, aunque la introducción de esa compensación tiene que ser
estudiada detenidamente. En ocasiones, una vez que se han identificado
todas las unidades que se deben seguir, se selecciona aleatoriamente una
submuestra de estas unidades para un seguimiento muy intensivo, que
puede requerir esfuerzos adicionales o alguna forma de compensación. En
cualquier caso, el contrato para la agencia recopiladora de datos debe conte-
ner incentivos claros, como una mayor compensación si la tasa de no res-
puesta se mantiene por debajo de un umbral aceptable.
Se deben establecer procedimientos de garantía de calidad bien definidos
para todas las etapas de la recopilación de datos, incluyendo el diseño del
procedimiento del muestreo y el cuestionario, las etapas de preparación,
recopilación de datos, ingreso de los datos, y limpieza y almacenamiento de
los mismos.
Se debería otorgar una gran prioridad a los controles de calidad durante el
trabajo de campo, con el fin de minimizar los errores de cada unidad. Deben
existir procedimientos claros para volver a visitar las unidades que no han pro-
porcionado información o que han proporcionado información incompleta.
Deben introducirse múltiples filtros en el proceso de control de calidad, por
ejemplo, contando con encuestadores, supervisores y, si fuera necesario, coor-
dinadores del trabajo de campo para que vuelvan a visitar a las unidades
que no respondieron para verificar su estatus. Los cuestionarios de las entre-
vistas con no respuesta deberían ser codificados con claridad y registrados.
Una vez que los datos han sido completamente digitalizados, las tasas de no
respuesta se pueden resumir y se puede dar cuenta de todas las unidades de
la muestra.
También deberían realizarse controles de calidad de cualquier dato
incompleto para una unidad encuestada en particular. Una vez más, el pro-
ceso de control de calidad debe incluir múltiples filtros. El encuestador es el
responsable de verificar los datos inmediatamente después de que han sido
recopilados. El supervisor y el coordinador del trabajo de campo deben lle-
var a cabo controles aleatorios en una etapa posterior.
Los controles de calidad de los errores de medición son más difíciles pero
cruciales para evaluar si la información se ha recopilado con precisión. Los
controles de consistencia se pueden incorporar en el cuestionario. Además,
los supervisores o controladores de calidad tienen que llevar a cabo controles
in situ, participando en las entrevistas para asegurar que los encuestadores
recopilen los datos según los estándares de calidad establecidos. Se pueden
realizar verificaciones externas o auditorías de calidad con una submuestra
de la encuesta de evaluación de impacto para asegurar que los datos recopi-
lados sean precisos. Esto a veces se lleva a cabo con un controlador de cali-
dad que recoge un subconjunto del cuestionario con un encuestado y
compara las respuestas con aquellas obtenidas anteriormente por un
encuestador con el mismo encuestado.
Los coordinadores del trabajo de campo o los miembros del equipo de
evaluación también deberían contribuir con los controles de calidad para
minimizar los conflictos de interés potenciales en la empresa encuestadora.
Puede que también sea necesario contratar una agencia externa para audi-
tar la calidad de las actividades de recopilación de datos. Esto puede limitar
significativamente la gama de problemas que puedan surgir debido a la falta
de supervisión del equipo de recopilación de datos, o debido a procedimien-
tos insuficientes de control de calidad.
En definitiva, es crucial que todos los pasos que intervienen en el control
de calidad se realicen explícitamente en los términos de referencia cuando
se contrata la recopilación de datos.
Procesamiento y almacenamiento de los datos
El procesamiento y la validación de los datos es una parte integral de la reco-

pilación de datos de una nueva encuesta. Incluye los pasos para digitalizar la
información de las encuestas de papel y lápiz, así como los pasos para validar
los datos tanto de estas últimas como de la recopilación electrónica mediante
ordenadores portátiles, teléfonos inteligentes, Tablets u otros instrumentos.
Al trabajar con encuestas de papel y lápiz, se debe elaborar un programa de
entrada de datos y se debe instaurar un sistema para gestionar el flujo de
datos que serán digitados. Hay que establecer normas y procedimientos y
capacitar rigurosamente a los operadores de ingreso de datos para garantizar
que dicho ingreso sea consistente. En la medida de lo posible, el ingreso de
datos debería ser integrado en las operaciones de recopilación de datos
(incluida la fase de prueba piloto), de manera que cualquier problema con los
datos recopilados se pueda identificar rápidamente y verificar en el terreno.
En general, la referencia de calidad para el proceso de entrada de datos
debería ser que los datos físicos brutos fuesen replicados con exactitud en la
versión digitalizada, sin modificaciones mientras se ingresan. Para minimi-
zar los errores de ingreso de datos, se puede utilizar un procedimiento de
ingreso de datos de doble ciego, de modo de identificar y corregir cualquier
error adicional. Se puede aplicar un enfoque de entrada de campo asistida
por ordenador, que recopila los datos en una encuesta de lápiz y papel y luego
los digitaliza en el terreno y los valida de inmediato para identificar errores e
inconsistencias.
Tanto en las encuestas de papel y lápiz como en las encuestas que depen-
den de la recopilación electrónica de datos, se pueden desarrollar progra-
mas para llevar a cabo controles automáticos de los errores no muestrales
(tanto en las no respuestas como en inconsistencias de las entradas) que se
pueden producir en el terreno, y para validar los datos. Si el proceso de
validación se integra en los procedimientos del trabajo de campo, se pue-
den devolver los datos incompletos o inconsistentes a los trabajadores en el
terreno para una verificación in situ. Este tipo de integración no está exenta
de dificultades en lo que se refiere al flujo organizacional de las operacio-
nes del trabajo de campo, pero puede producir importantes mejoras de la
calidad, disminuir el error de medición y aumentar la potencia estadística
de la evaluación de impacto. La posibilidad de utilizar un enfoque inte-
grado de este tipo debe contemplarse explícitamente cuando se planifica la
recopilación de datos. El uso de nuevas tecnologías puede facilitar esos
controles de calidad.
Como ya se ha señalado, la recopilación de datos comprende un con-
junto de operaciones cuya complejidad no debería ser subestimada. El
recuadro 16.5 trata de cómo el proceso de recopilación de datos para la eva-
luación de las pruebas piloto de atención a crisis en Nicaragua produjo
datos de alta calidad con muy bajo desgaste y pocas no respuestas a las pre-
guntas, así como pocos errores de medición y de procesamiento. Estos
datos de alta calidad se pueden obtener solo cuando se establecen los pro-
cedimientos de calidad de los datos y los incentivos adecuados al contratar
la recopilación de datos.
Al final del proceso de recopilación, los datos deben presentarse con
documentación detallada, lo que incluye un libro de códigos completo y un
diccionario de datos, y deben almacenarse en un sitio seguro (véase el
recuadro 16.6). Si los datos están siendo recopilados para una evaluación de
impacto, el conjunto de datos también debe incluir información comple-
mentaria sobre la condición de tratamiento y la participación en el pro-
grama. Un paquete completo de documentación acelerará el análisis de los
datos de evaluación de impacto, contribuirá a producir resultados que se
pueden utilizar para la elaboración de las políticas de manera oportuna y
facilitará la distribución de la información y la potencial replicación.
Recuadro 16.5: Recopilación de datos para la evaluación de las
pruebas piloto de atención a crisis en Nicaragua
En 2005 el gobierno nicaragüense lanzó el estableció una supervisión en el terreno de
programa piloto Atención a Crisis. Se ela- modo que todos los cuestionarios fueron revi-
boró un estudio para evaluar el impacto de sados varias veces por los encuestadores,
combinar un programa de transferencias supervisores, coordinadores del trabajo de
condicionadas con transferencias producti- campo y otros expertos. Tercero, se utilizó un
vas, como ayudas para invertir en actividades sistema de ingreso de datos de doble ciego,
no agrícolas o en formación profesional. La junto con un programa exhaustivo de control
prueba piloto de Atención a Crisis fue imple- de calidad que podía identificar los cuestiona-
mentada por el Ministerio de la Familia, con rios incompletos o inconsistentes. Los cues-
apoyo del Banco Mundial. tionarios donde faltaba información en ciertas
En la evaluación se utilizó una asignación preguntas o donde se observaban inconsis-
aleatoria en dos etapas. En primer lugar, se tencias eran devueltos sistemáticamente al
asignaron 106 comunidades ya sea al grupo terreno para ser verificados. Estos procedi-
de comparación o al grupo de tratamiento. mientos y requisitos fueron especificados de
En segundo lugar, en las comunidades de forma explícita en los términos de referencia
tratamiento los hogares elegibles fueron de la empresa de recopilación de datos.
asignados aleatoriamente a uno de tres Además, se establecieron procedimientos
paquetes de beneficios: transferencias con- detallados de seguimiento para minimizar el
dicionadas, la transferencia más una ayuda desgaste. Al comienzo, en 2008, se llevó a
que permitía a uno de los miembros del cabo un censo de los hogares que residían en
hogar elegir entre diversos cursos de forma- las comunidades de tratamiento y de control,
ción profesional, y transferencias monetarias en estrecha colaboración con los dirigentes
más una ayuda para la inversión productiva, comunitarios. Dado que la migración en el
destinada a estimular a los receptores para país era habitual, a la empresa encargada de la
el inicio de una actividad no agrícola, con el encuesta se le ofrecieron incentivos para
fin de crear activos y diversificar el ingreso hacer un seguimiento de los migrantes
(Macours, Premand y Vakis, 2012). individuales en todo el país. Como consecuen-
En 2005 se llevó a cabo una encuesta de cia, solo el 2% de los 4.359 hogares originales
línea de base, en 2006 se produjo una pri- no pudieron ser entrevistados en 2009. La
mera encuesta de seguimiento y en 2008 se empresa de la encuesta también se encargó
realizó una segunda encuesta de segui- de dar seguimiento a todos los individuos de
miento, dos años después de finalizada la los hogares encuestados en 2005. Una vez
intervención. Se establecieron rigurosos con- más, solo no se pudo realizar el seguimiento
troles de calidad en todas las etapas del pro- de un 2% de los individuos objeto de las trans-
ceso de recopilación de datos. Primero, los ferencias del programa (otro 2% había falle-
cuestionarios fueron sometidos a una cido). El desgaste fue de un 6% para todos los
exhaustiva prueba en el terreno y se capacitó niños de los hogares encuestados en 2005 y
a los encuestadores tanto en las aulas como de un 5% para todos los individuos en los
en las condiciones en el terreno. Segundo, se hogares encuestados en ese mismo año.

Recuadro 16.5: Recopilación de datos para la evaluación de las pruebas piloto de atención a crisis en
Nicaragua (continúa)
Las tasas de desgaste y de no respuesta recopilación de datos. Aun así, en el contexto
proporcionan un buen indicador de la calidad de la prueba piloto de Atención a Crisis, la
de la encuesta. Las tasas de desgaste muy muestra siguió siendo representativa tanto a
bajas requieren grandes esfuerzos de la nivel de los hogares como de los individuos empresa
de recopilación de datos, así como tres a cuatro años después de la línea de base; incentivos
explícitos. El costo unitario de un se minimizaron los errores de medición, y se hogar o
individuo objeto de un seguimiento garantizó la fiabilidad de la evaluación. Como también es
mucho mayor. Además, en este consecuencia, los impactos de largo plazo de caso, los
controles de calidad rigurosos aña- las pruebas piloto de Atención a Crisis pudie- dieron costos
y aumentaron el tiempo de ron ser analizados de manera convincente.
Fuente: Macours, Premand y Vakis (2012).
Recuadro 16.6: Directrices para la documentación y el

almacenamiento de datos
La práctica clave en la documentación de E Los archivos de control de identidad
datos consiste en mantener un registro de contienen toda la información antes de
todos los datos de la evaluación de impacto. que se vuelva anónima. Deben guardarse
Esto implica los protocolos de recopilación solo en un servidor seguro y nunca inclu-
de datos, los cuestionarios, los manuales de irse en un catálogo de datos.
formación y otros. El Banco Mundial, el E Los macrodatos comprenden todos los
Banco Interamericano de Desarrollo (BID) y documentos de apoyo relevantes para la
la Millenium Challenge Corporation, entre interpretación de los microdatos, el dicciona-
otros organismos, tienen iniciativas de datos rio de datos, el libro de códigos, la descripción
abiertos que ponen estos datos a disposición del diseño del estudio y los cuestionarios.
del público mediante un catálogo de datos. La catalogación de los macrodatos y microda-
El almacenamiento se puede descompo- tos contribuye a proteger la seguridad de los
ner en tres categorías: microdatos, macrodatos y cumple las normas internacionales
datos y archivos de control de identidad. sobre almacenamiento de datos. Los catálo-
E Los microdatos son datos al nivel de la gos de los datos centrales son mucho menos
unidad de observación, que permanece vulnerables al mal funcionamiento o a la intru-
anónima y no incluye ninguna información sión que el disco duro de un computador o
que identifique a los individuos. Las vari- un instrumento portátil de almacenamiento.
ables de identificación relevantes guardan el En ciertos catálogos de datos, los datos
anonimato de la identificación, que está vin- pueden permanecer protegidos por una con-
culada solo a la información de los encuesta- traseña durante un período determinado
dos en los ficheros de control de identidad. antes de estar disponibles al público.

Otros recursos
• Para una guía del diseño del cuestionario, véase el módulo sobre “Técnicas del
trabajo de campo aplicadas” en el curso de métodos de evaluación de impacto
de la Universidad de California (http://aie.cega.org).
• Para entradas en los blogs sobre recopilación de datos, véase la lista docu-
mentada del blog de impacto en el desarrollo del Banco Mundial (http://blogs
.worldbank.org/impactevaluations).
• Para más información sobre la recopilación de datos, véase el siguiente
material:
➢ A. G. Fink y J. Kosecoff (2008), How to Conduct Surveys: A Step by Step
Guide, cuarta edición. Londres: Sage.
➢ G. Iarossi (2006), The Power of Survey Design: A User’s Guide for Managing
Surveys, Interpreting Results, and Influencing Respondents. Washington,
➢ E. Leeuw, J. Hox y D. Dillman (2008), International Handbook of Survey
Methodology. Nueva York: Taylor & Francis Group.
• Para más información sobre las actividades de recopilación de datos y supervisión
de calidad de los datos, véase el Kit de Herramientas de Evaluación de Impacto
(Impact Evaluation Toolkit) del Banco Mundial, Módulo 5 sobre recopilación de
datos (http://www.worldbank.org/health/impactevaluationtoolkit). El módulo
incluye varios ejemplos de informes de progreso de la encuesta, manuales para el
trabajo de campo y programas de capacitación para los hogares y centros de salud.
• Para diversos materiales de orientación y preparación de una encuesta, véase
el portal de evaluación del Banco Interamericano de Desarrollo (http://
www.iadb.org/portalevaluacion). En la sección de recopilación de datos,
puede descargarse:
➢ Un manual para el diseño del cuestionario.
➢ Un manual de ingreso de datos.
➢ Formularios de consentimiento, cuestionarios de la muestra, programas de
ingreso de datos y manuales para el trabajo de campo en diferentes tipos
de encuestas, entre ellas encuestas de hogares, de comunidades, de centros
de salud, escuelas y agricultores.
➢ Enlaces con otros ejemplos de preguntas y cuestionarios de las encuestas.
➢ Enlaces con directrices para la recopilación de datos de calidad.
➢ Enlaces con instrumentos disponibles en el sitio web de International
Household Survey Network (IHSN) para almacenamiento y gestión de
datos.
• Para más información sobre las razones de la importancia de la documentación
de datos, cómo se puede llevar a cabo y quién es el responsable de ello en el
equipo de evaluación, véase el Kit de Herramientas de Evaluación de Impacto
(Impact Evaluation Toolkit) del Banco Mundial, Módulo 6, sobre almacenamiento
de datos (http://www.worldbank.org/health/impactevaluationtoolkit).

Notas
1. Véanse referencias en Grosh y Glewwe (2000) y Naciones Unidas (2005).
Véanse también Muñoz (2005); Iarossi (2006); Fink y Kosecoff (2008), y Leeuw,
Hox y Dillman (2008), que proporcionan abundante orientación práctica sobre
la recopilación de datos.
2. Consúltese McKenzie y Rosenzweig (2012) para una visión general de los
últimos avances.
3. Para ejemplos de este tipo de experimentos, véanse McKenzie y Rosenzweig
(2012) en temas generales; Beegle, Carletto y Himelein (2012) sobre datos
agrícolas; Beegle et al. (2012) sobre la medición del consumo de los hogares, y
Bardasi et al. (2011) sobre datos laborales.
4. Para ejemplos de innovaciones en la medición de resultados, véase Holla (2013);
Das y Hammer (2007), y Planas et al. (2015).
Baird, S. y B. Özler. 2012. “Examining the Reliability of Self-reported Data on
School Participation.” Journal of Development Economics 98 (1): 89–93.
Bardasi, E., K. Beegle, A. Dillon, A. y P. Serneels. 2011. “Do Labor Statistics
Depend on How and to Whom the Questions Are Asked? Results from a
Survey Experiment in Tanzania.” The World Bank Economic Review
25 (3): 418–47.
Beegle, K., C. Carletto y K. Himelein. 2012. “Reliability of Recall in Agricultural
Data.” Journal of Development Economics 98 (1): 34–41.
Beegle, K., J. De Weerdt, J. Friedman y J. Gibson. 2012. “Methods of Household
Consumption Measurement through Surveys: Experimental Results from
Tanzania.” Journal of Development Economics 98 (1): 3–18.
Caeyers, B., N. Chalmers y J. De Weerdt. 2012. “Improving Consumption
Measurement and Other Survey Data through CAPI: Evidence from a
Randomized Experiment.” Journal of Development Economics 98 (1): 19–33.
Chetty, R., J. N. Friedman y E. Sáez. 2013. “Using Differences in Knowledge across
Neighborhoods to Uncover the Impacts of the EITC on Earnings.” American
Das, J. y J. Hammer. 2007. “Money for Nothing: The Dire Straits of Medical Practice
in Delhi, India.” Journal of Development Economics 83 (1): 1–36.
Fafchamps, M., D. McKenzie, S. Quinn y C. Woodruff. 2012. “Using PDA
Consistency Checks to Increase the Precision of Profits and Sales Measurement
in Panels.” Journal of Development Economics 98 (1): 51–57.
Ferraz, C. y F. Finan. 2008. “Exposing Corrupt Politicians: The Effects of Brazil’s
Publicly Released Audits on Electoral Outcomes.” The Quarterly Journal of
Economics 123 (2): 703–45.
Fink, A. G. y J. Kosecoff. 2008. How to Conduct Surveys: A Step by Step Guide, cuarta
edición. Londres: Sage.

Galiani, S., P. Gertler y E. Schargrodsky, E. 2005. “Water for Life: The Impact of the
Privatization of Water Services on Child Mortality.” Journal of Political Economy
113 (1): 83–120.
Galiani, S. y P. McEwan. 2013. “The Heterogeneous Impact of Conditional Cash
Transfers.” Journal of Public Economics 103: 85–96.
Gertler, P., P. Giovagnoli y S. Martínez. 2014. “Rewarding Provider Performance
to Enable a Healthy Start to Life: Evidence from Argentina’s Plan Nacer.”
Documento de trabajo de investigación de políticas Núm. 6884. Washington,
Glewwe, P.2005. “An Overview of Questionnaire Design for Household Surveys in
Developing Countries.” En: Household Sample Surveys in Developing and
Transition Countries. Nueva York: Naciones Unidas.
Glewwe, P. y P. Olinto. 2004. “Evaluating the Impact of Conditional Cash Transfers
on Schooling: An Experimental Analysis of Honduras’ PRAF Program.” Informe
final. University of Minnesota y IFPRI-FCND.
Grosh, M. y P. Glewwe (eds.). 2000. Designing Household Survey Questionnaires for
Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington, D.C.: Banco Mundial.
Holla, A. 2013. “Measuring the Quality of Health Care in Clinics.” Washington, D.C.:
Banco Mundial. Disponible en http://www.globalhealthlearning.org/sites
/default/files/page-files/Measuring%20Quality%20of%20Health%20
Care_020313.pdf.
Iarossi, G. 2006. The Power of Survey Design: A User’s Guide for Managing Surveys,
Interpreting Results, and Influencing Respondents. Washington, D.C.: Banco
Mundial.
Kasprzyk, D. 2005. “Measurement Error in Household Surveys: Sources and
Measurement.” En: Household Sample Surveys in Developing and Transition
Countries. Nueva York: Naciones Unidas.
Leeuw, E., J. Hox y D. Dillman. 2008. International Handbook of Survey
Methodology. Nueva York: Taylor & Francis Group.
Macours, K., P. Premand y R. Vakis. 2012. “Transfers, Diversification and
Household Risk Strategies: Experimental Evidence with Implications for
Climate Change Adaptation.” Documento de trabajo de investigación de
políticas Núm. 6053. Washington, D.C.: Banco Mundial.
McKenzie, D. y M. Rosenzweig. 2012. “Symposium on Measurement and Survey
Design.” Journal of Development Economics 98 (1, Mayo): 1–148.
Morris, S. S., R. Flores, P. Olinto y J. M. Medina. 2004. “Monetary Incentives in
Primary Health Care and Effects on Use and Coverage of Preventive Health
Care Interventions in Rural Honduras: Cluster Randomized Trial.” Lancet 364:
2030–37.
Muñoz, J. 2005. “A Guide for Data Management of Household Surveys.” En:
Household Sample Surveys in Developing and Transition Countries. Nueva York:
Naciones Unidas.
Naciones Unidas. 2005. Household Sample Surveys in Developing and Transition
Countries. Nueva York: Naciones Unidas.

Planas, M-E, P. J. García, M. Bustelo, C. P. Cárcamo, S. Martínez, H. Ñopo,
J. Rodríguez, M. F. Merino y A. Morrison. 2015. “Effects of Ethnic Attributes on
the Quality of Family Planning Services in Lima, Peru: A Randomized Crossover
Trial.” PLoS ONE 10 (2): e0115274.
Pradhan, M. y L. B. Rawlings. 2002. “The Impact and Targeting of Social
Infrastructure Investments: Lessons from the Nicaraguan Social Fund.”
World Bank Economic Review 16 (2): 275–95.

CAPÍTULO 17
Conclusiones
Las evaluaciones de impacto: ejercicios

complejos pero valiosos
La evaluación de impacto tiene que ver con generar evidencia sobre qué
programas funcionan, qué programas no lo hacen y cómo mejorarlos para
lograr mejores resultados en materia de desarrollo. Esto se puede realizar
en un marco clásico de evaluación de impacto, contrastando los resultados
entre grupos de tratamiento y comparación. Las evaluaciones de impacto
también se pueden llevar a cabo para explorar alternativas de implementa-
ción de un programa, para probar innovaciones o analizar diferentes pro-
gramas con el fin de evaluar el desempeño comparativamente.
La idea que subyace a este trabajo es que las evaluaciones de impacto
constituyen una inversión valiosa para numerosos programas. Junto con el
monitoreo y otras formas de evaluación, optimizan la comprensión de la
efectividad de determinadas políticas; contribuyen a una rendición de
cuentas mejorada de los administradores del programa, los gobiernos, los
financiadores y el público en general; fundamentan decisiones acerca de
cómo asignar de manera más eficiente los escasos recursos para el desarro-
llo, y aportan al acervo global de conocimientos sobre lo que funciona y no
funciona en el campo del desarrollo.
355
Lista de verificación: elementos centrales de una
evaluación de impacto bien diseñada
Las evaluaciones de impacto son ejercicios complejos con numerosas partes

cambiantes. La siguiente lista de verificación destaca los elementos centra-
les de una evaluación de impacto bien diseñada:
 Una pregunta concreta y relevante para las políticas –basada en una

teoría del cambio– a la que se puede responder con una evaluación de
impacto.
 Una metodología robusta, derivada de las reglas operativas del programa,

para estimar un contrafactual que muestre la relación causal entre el
programa y los resultados de interés.
 Un equipo de evaluación bien formado que funcione como la

asociación de un equipo de políticas públicas y un equipo de
investigación.
 Respeto por las normas éticas y consideración por los sujetos humanos
en el diseño y la implementación de la evaluación y la recopilación de
datos correspondiente, así como atención a los principios de ciencia
abierta para asegurar la transparencia.
 Una muestra con suficiente potencia estadística para permitir que se

detecten los impactos relevantes para las políticas.
 Una metodología y una muestra que proporcionen resultados generaliza-

bles para la población de interés.
 Datos de gran calidad que proporcionen la información adecuada reque-

rida para la evaluación de impacto, incluidos los datos de los grupos de
tratamiento y de comparación, los datos de línea de base y de segui-
miento, y la información sobre la implementación y los costos del
programa.
 Una estrategia de participación para fundamentar el diálogo de políticas

a través de la implementación de la evaluación de impacto, así como tam-
bién un informe de evaluación de impacto y notas informativas de las
políticas relacionadas divulgadas al público objetivo en el momento
oportuno.

Lista de verificación: recomendaciones para
mitigar riesgos habituales al llevar adelante
una evaluación de impacto
También se destacan algunas recomendaciones que pueden contribuir a

mitigar los riesgos habituales inherentes al proceso de realización de una
evaluación de impacto:
 El mejor momento para diseñar una evaluación de impacto es temprano

en el ciclo del proyecto, idealmente como parte del diseño del programa,
pero al menos antes de implementar el programa que se evalúa. Una pla-
nificación temprana permite un diseño de evaluación prospectivo basado
en la mejor metodología disponible, y brindará el tiempo necesario para
planificar e implementar la recopilación de datos de línea de base en los
ámbitos de la evaluación antes de que comience el programa.
 Los resultados de la evaluación de impacto deben acompañarse con

evaluaciones complementarias del proceso y datos de monitoreo que
muestren un cuadro claro de la implementación del programa. Cuando
los programas tienen éxito, es importante entender por qué. Cuando los
programas fracasan, es importante poder distinguir entre un programa
mal implementado y un diseño de programa deficiente.
 Se deben recopilar los datos de línea de base e incorporar una metodolo-

gía de respaldo en el diseño de la evaluación de impacto. Si el diseño de la
evaluación original es invalidado –por ejemplo, porque el grupo de com-
paración original recibe los beneficios del programa–, contar con un plan
de respaldo puede ayudar a evitar tener que renunciar por completo a la
evaluación.
 Se deben mantener identificadores comunes entre diferentes fuentes de

datos para las unidades de observación, de modo que se les pueda rela-
cionar fácilmente durante el análisis. Por ejemplo, un determinado
hogar debe tener el mismo identificador en los sistemas de monitoreo y
en las encuestas de línea de base y de seguimiento de la evaluación de
impacto.
 Las evaluaciones de impacto son útiles para aprender cómo funcionan

los programas y para probar alternativas de programas, incluso en el caso
de grandes programas en curso. Las evaluaciones de impacto bien
Conclusiones 357
diseñadas pueden contribuir a probar innovaciones o a proporcionar
nuevas perspectivas de la efectividad relativa de diversos productos y
servicios prestados como un paquete de programas existentes.Incorporar
una innovación adicional al programa como un pequeño plan piloto en el
contexto de una evaluación más grande puede servir para aprovechar la
evaluación a fin de producir información valiosa para la toma de decisio-
nes en el futuro.
 Se debe pensar en las evaluaciones de impacto como otro de los compo-
nentes de la operación de un programa y se les debe dotar de personal
adecuado y de un presupuesto que contemple los recursos técnicos y
financieros necesarios. Es preciso ser realista acerca de los costos y la
complejidad de llevar a cabo una evaluación de impacto. Normalmente,
el proceso de diseñar una evaluación y recopilar una línea de base desde
cero puede tardar un año o más. Una vez que el programa comienza, el
grupo de tratamiento necesita un período suficientemente largo de expo-
sición a la intervención para influir en los resultados. Dependiendo del
programa, esto puede tardar entre un año y cinco años, o más en el caso
de resultados de largo plazo. Recopilar una o más encuestas de segui-
miento, llevar a cabo el análisis y divulgar los resultados también reque-
rirá un esfuerzo considerable a lo largo de varios meses y años. En su
conjunto, un ciclo completo de evaluación de impacto desde el comienzo
hasta el final suele durar entre tres y cuatro años de intensivo trabajo y
participación. Se requieren recursos financieros y técnicos adecuados en
cada paso del proceso.
Eventualmente, las evaluaciones de impacto individuales ofrecen res-

puestas concretas a preguntas específicas de políticas públicas. Aunque
estas respuestas proporcionan información hecha a la medida de la enti-
dad específica que encarga y financia la evaluación, también brindan
información valiosa para otros agentes en otras partes del mundo, que
pueden aprender y tomar decisiones sobre la base de la evidencia. Por
ejemplo, los programas de transferencias condicionadas de África, Asia
y Europa han extraído enseñanzas de las evaluaciones originales de
Familias en Acción de Colombia, Progresa de México y otros programas
de transferencias condicionadas de América Latina. De esta manera, las
evaluaciones de impacto constituyen en parte un bien público global. La
evidencia que se genera a través de una evaluación de impacto se suma al
conocimiento mundial sobre este tema. Esta base de conocimientos luego
puede fundamentar decisiones de políticas de otros países y contextos,
prestando la atención adecuada a la validez externa. La comunidad inter-
nacional ha avanzado rápidamente hacia un apoyo de mayor escala de
evaluaciones rigurosas.
A nivel de país, gobiernos cada vez más sofisticados y exigentes esperan
demostrar resultados y ser más capaces de rendir cuentas ante sus electores
clave. Se emprenden cada vez más evaluaciones de impacto de la mano de
los ministerios nacionales y subnacionales pertinentes, y los órganos de
gobierno creados para dirigir una agenda nacional de evaluación, como el
Consejo Nacional de Evaluación de la Política de Desarrollo Social, en
México, y el Departamento de Monitoreo y Evaluación del Desempeño
en Sudáfrica (Department of Performance Monitoring and Evaluation).
También se utiliza la evidencia de estas evaluaciones para fundamentar las
asignaciones presupuestarias propuestas por el Congreso y el Parlamento a
nivel nacional. En los sistemas donde los programas se juzgan a partir de la
evidencia y los resultados finales, los programas que tienen una sólida base
de evidencia para defender resultados positivos podrán salir adelante,
mientras que los que carecen de dichas pruebas tendrán más dificultades
para encontrar financiamiento.
Las instituciones multilaterales como el Banco Mundial y el Banco
Interamericano de Desarrollo (BID), así como los organismos nacionales de
desarrollo, los gobiernos donantes y las instituciones filantrópicas también
exigen más y mejor evidencia sobre el uso efectivo de los recursos para el
desarrollo. Esta evidencia se requiere para rendir cuentas a quienes prestan
o donan el dinero, y para la toma de decisiones acerca de dónde es mejor
asignar los escasos recursos para el desarrollo.
Asimismo, está emergiendo un número creciente de instituciones
dedicadas principalmente a la producción de evaluaciones de impacto de
alta calidad, entre ellas las del ámbito académico como Poverty Action Lab
(J-Pal), Innovations for Poverty Action (IPA), y el Center for Effective
Global Action (CEGA), y organismos independientes que apoyan las eva-
luaciones de impacto, como la Iniciativa Internacional para la Evaluación
de Impacto (3ie). Hay diversas asociaciones que reúnen a grupos de profe-
sionales de la evaluación e investigadores y responsables de las políticas
interesados en el tema, entre ellas la Network of Networks on Impact
Evaluation y asociaciones regionales como la African Evaluation
Association y la Red de Evaluación de Impacto de la Asociación Económica
de América Latina y el Caribe. Todas estas iniciativas reflejan la creciente
importancia de la evaluación de impacto en las políticas internacionales de
desarrollo.
Debido a estos avances, poder comunicarse en el lenguaje de la evaluación
de impacto es una habilidad cada vez más indispensable para cualquier pro-
fesional del desarrollo, ya sea para quienes se ganan la vida trabajando en eva-
luaciones, o bien para los que contratan evaluaciones de impacto o utilizan
los resultados de las mismas en la toma de decisiones. La rigurosa evidencia
generada a través de las evaluaciones de impacto puede ser uno de los
Conclusiones 359
motores del diálogo de políticas para el desarrollo, y proporcionar la base
para apoyar o para oponerse a las inversiones en programas y políticas de
desarrollo. La evidencia de las evaluaciones de impacto permite a los respon-
sables de las políticas y a los administradores de los proyectos tomar decisio-
nes fundamentadas sobre cómo alcanzar resultados de la manera más
costo-efectiva. Armado con la evidencia de una evaluación de impacto, el
equipo de políticas públicas tiene el deber de cerrar el ciclo incorporando
esos resultados en el proceso de toma de decisiones. Este tipo de evidencia
puede respaldar debates, opiniones y, en definitiva, las decisiones de asigna-
ción de recursos humanos y monetarios de los gobiernos, las instituciones
multilaterales y los donantes.
La elaboración de políticas basadas en la evidencia tiene que ver esen-
cialmente con fundamentar el diseño de programas y mejorar la asignación
presupuestaria para ampliar los programas costo-efectivos, eliminar los
inefectivos e introducir mejoras en los diseños sobre la base de la mejor
evidencia disponible. Las evaluaciones de impacto no son una empresa
puramente académica. Son el resultado de la necesidad de encontrar
respuestas a las preguntas de políticas que influyen en la vida diaria de las
personas. Las decisiones sobre cuál es la mejor manera de asignar recursos
escasos a los programas de lucha contra la pobreza, o de transporte, energía,
salud, educación, de redes de protección, microcréditos, agricultura, y otras
innumerables iniciativas para el desarrollo, tienen el potencial para mejorar
el bienestar de las personas en todo el mundo. Es vital que esas decisiones se
tomen utilizando la evidencia más rigurosa posible.

GLOSARIO
Los términos que llevan cursiva dentro de las definiciones se definen a su vez dentro
del propio glosario.
Actividad. Medidas adoptadas o trabajo realizado a través del cual los insumos,
como los fondos, la asistencia técnica y otro tipo de recursos que se movilizan para
generar productos específicos, como el dinero gastado, los libros de texto distribui-
dos o el número de participantes en un programa de empleo.
Análisis de costo-beneficio. Estima los beneficios totales previstos de un
programa, en comparación con sus costos totales previstos. Su fin es cuantificar
todos los costos y beneficios de un programa en términos monetarios y evaluar si los
beneficios superan a los costos.
Análisis de costo-efectividad. Compara el costo relativo de dos o más programas
o alternativas de programa en términos de alcanzar un resultado común, como la
producción agrícola o las calificaciones de los alumnos en los exámenes.
Análisis de regresión. Método estadístico para analizar las relaciones entre una
variable dependiente (la variable que se debe explicar) y variables explicativas. El
análisis de regresión normalmente no es suficiente para capturar los efectos causales.
En la evaluación de impacto, el análisis de regresión es una manera de representar la
relación entre el valor de un indicador de resultado Y (variable dependiente) y una
variable independiente que captura la asignación al grupo de tratamiento o grupo de
comparación, mientras se mantienen constantes otras características. Tanto la asig-
nación al grupo de tratamiento y de comparación como las demás características son
variables explicativas. El análisis de regresión puede ser univariante (si hay solo una
variable explicativa; en el caso de la evaluación de impacto, la única variable explica-
tiva es la asignación al grupo de tratamiento o de comparación) o multivariante
(si hay varias variables explicativas).
Análisis de sensibilidad. Trata de la sensibilidad del análisis ante los cambios en
los supuestos. En el contexto de los cálculos de potencia, contribuye a comprender
361
cuánto tendrá que aumentar el tamaño requerido de la muestra bajo supuestos más
conservadores (como un menor impacto esperado, una mayor variación en el
indicador de resultado o un nivel más alto de potencia).
Asignación aleatoria o ensayo controlado aleatorio. Método de evaluación de
impacto por el cual cada unidad elegible (por ejemplo, un individuo, un hogar, una
empresa, una escuela, un hospital o una comunidad) tiene la misma probabilidad
de ser seleccionada para ser tratada en un programa. Con un número suficiente-
mente grande de unidades, el proceso de asignación aleatoria garantiza la equiva-
lencia tanto en las características observables como no observables entre el grupo
de tratamiento y el grupo de comparación, y así se descarta cualquier sesgo de
selección. La asignación aleatoria se considera el método más robusto para estimar
los contrafactuales y se le suele considerar como la regla de oro de la evaluación de
impacto.
Cadena de resultados. Establece la lógica causal del programa explicando cómo se
logra el objetivo de desarrollo. Articula la secuencia de insumos, actividades y
productos que se espera que mejoren los resultados.
Cálculos de potencia. Método para determinar cuál es el tamaño de la muestra
requerida para que una evaluación de impacto estime con precisión el impacto de un
programa, es decir: la muestra más pequeña que permitirá detectar el efecto mínimo
detectable. Los cálculos de potencia dependen de parámetros como la potencia (o la
probabilidad de un error de tipo II), el nivel de significancia, la media, la varianza y la
correlación intra-clusters de los resultados de interés.
Censo. Empadronamiento total de una población. Los datos censales abarcan todas
las unidades de la población. Compárese con muestra.
Ciencia abierta. Movimiento cuyo fin es elaborar métodos de investigación más
transparentes, mediante el registro de los ensayos, la utilización de planes de
preanálisis, documentación de datos y registros.
Comparación antes y después. También conocida como “comparación previa-
posterior” o “comparación reflexiva”. Se trata de un seguimiento de los cambios en
los resultados para los beneficiarios del programa a lo largo del tiempo, utilizando
mediciones antes y después de la implementación del programa o la política, sin
utilizar un grupo de comparación.
Comparaciones de inscritos y no inscritos. También conocidas como compara-
ciones autoseleccionadas. Esta estrategia compara los resultados de las unidades que
decidieron inscribirse y las unidades que decidieron no inscribirse en un programa.
Cluster. También llamado conglomerado. Grupo de unidades que pueden compartir
características similares. Por ejemplo, los niños que asisten a la misma escuela
pertenecen a un mismo cluster porque comparten el mismo centro escolar, los
mismos profesores y viven en el mismo barrio.
Consentimiento informado. Uno de los fundamentos de la protección de los
derechos de los sujetos humanos. En el caso de las evaluaciones de impacto, requiere
que los encuestados comprendan claramente los fines, procedimientos, riesgos y
beneficios de la recopilación de datos en la que se les pide participar.

Contrafactual. Valor que habría tenido el resultado (Y) para los participantes del pro-
grama si no hubieran participado en el programa (P). Por definición, el contrafactual no
se puede observar. Por lo tanto, debe estimarse utilizando un grupo de comparación.
Correlación. Medida estadística que indica hasta qué punto dos o más variables
fluctúan juntas.
Correlación intra-clusters. También conocida como “correlación intraclase”. Se
trata del nivel de similitud en los resultados o características entre las unidades de los
grupos previamente existentes o clusters en relación con unidades de otros clusters.
Por ejemplo, los niños que asisten a la misma escuela normalmente serían más
similares o estarían más correlacionados en términos de sus zonas de residencia o
antecedentes socioeconómicos, en comparación con niños que no asisten a esa escuela.
Cumplimiento. Fenómeno que se produce cuando las unidades adhieren a su
asignación como parte del grupo de tratamiento o del grupo de comparación.
Cumplimiento imperfecto. Discrepancia entre el estatus de tratamiento asignado
y la condición de tratamiento real. Se produce cuando algunas unidades asignadas al
grupo de comparación participan en el programa, o cuando algunas unidades asigna-
das al grupo de tratamiento no participan.
Datos administrativos. Datos recopilados asiduamente por organismos públicos o
privados como parte de la administración de un programa, normalmente con
frecuencia periódica y a menudo en el lugar de la prestación de servicios, e incluyen
los servicios prestados, los costos y la participación en el programa. Los datos de
monitoreo constituyen un tipo de datos administrativos.
Datos de encuesta. Datos que cubren una muestra de la población de interés.
Compárese con censo.
Datos de monitoreo. Datos provenientes del monitoreo del programa que proporcio-
nan información esencial a propósito de la prestación de una intervención, e incluyen
quiénes son los beneficiarios y qué beneficios o productos del programa pueden haber
recibido. Los datos de monitoreo constituyen un tipo de datos administrativos.
Desgaste. El desgaste se produce cuando algunas unidades abandonan la mues-
tra entre una ronda de datos y la siguiente. Por ejemplo, cuando las personas
cambian su residencia y no se les puede localizar. El desgaste de la muestra es un
caso de falta de respuesta de la unidad. Puede introducir un sesgo en la estimación
de impacto.
Diferencias en diferencias. También conocido como “doble diferencia” o “DD”.
Las diferencias en diferencias comparan los cambios en los resultados a lo largo del
tiempo entre el grupo de tratamiento y el grupo de comparación. Esto elimina
cualquier diferencia entre estos grupos que sea constante a lo largo del tiempo.
Diseño cruzado. También denominado diseño transversal. Se produce cuando hay
una asignación aleatoria con dos o más intervenciones, lo que permite estimar el
impacto de las intervenciones individuales y combinadas.
Diseño de regresión discontinua (DRD). Método de evaluación de impacto cuasi
experimental que se puede utilizar en programas que dependen de un índice
Glosario 363
continuo para clasificar a los participantes potenciales. Dicho índice tiene un punto
límite que determina si los participantes potenciales son elegibles para recibir el
programa o no. El umbral de elegibilidad del programa proporciona un punto
divisorio entre el grupo de tratamiento y el grupo de comparación. Los resultados para
los participantes en un lado del umbral se comparan con los resultados de los no
participantes al otro lado del umbral. Cuando todas las unidades cumplen con la
asignación que corresponde sobre la base de su índice de elegibilidad, se dice que el
DRD es “nítido”. Si hay incumplimiento en el otro lado del umbral, se dice que el
DRD es “difuso” o “borroso”.
Efecto causal. Véase impacto.
Efecto de derrame. También denominado efecto de contagio. Ocurre cuando el
grupo de tratamiento influye directa o indirectamente en los resultados del grupo de
comparación (o a la inversa).
Efecto mínimo detectable. El efecto mínimo detectable es un insumo en los cálcu-
los de potencia, es decir, proporciona el tamaño del efecto que una evaluación de
impacto está diseñada para estimar con un determinado nivel de significancia y
potencia. Las muestras de la evaluación tienen que ser lo bastante grandes para
distinguir al menos el efecto mínimo detectable. Este efecto se determina teniendo
en cuenta el cambio en los resultados que justificaría la inversión que se ha hecho en
una intervención.
Efecto Hawthorne. Se produce cuando, por el simple hecho de ser observadas, las
unidades se comportan de manera diferente.
Efecto John Henry. Acontece cuando las unidades de la comparación se
esfuerzan más para compensar que no se les haya ofrecido el tratamiento.
Cuando se comparan las unidades tratadas con las unidades de la comparación
que se esfuerzan más, la estimación del impacto del programa tiene un sesgo; es
decir, se estima un impacto menor del programa en comparación con el impacto
real que se obtendría si las unidades de la comparación no realizaran un
esfuerzo adicional.
Efecto local promedio del tratamiento (LATE, por sus siglas en inglés).
Impacto de un programa estimado para un subconjunto específico de la población,
como las unidades que cumplen con su asignación al grupo de tratamiento o de
comparación en presencia de un cumplimiento imperfecto, o en torno al umbral de
elegibilidad cuando se aplica un diseño de regresión discontinua. Por lo tanto, el
LATE proporciona solo una estimación local del impacto del programa y no debería
generalizarse al conjunto de la población.
Efectos de equilibrio de contexto. Efectos de derrame que se producen cuando
una intervención influye en las normas de conducta o sociales en un contexto
determinado, como una localidad tratada.
Efectos de equilibrio general. Estos efectos de derrame se producen cuando las
intervenciones afectan la oferta y demanda de bienes y servicios y, por lo tanto,
cambian el precio de mercado de esos servicios.

Efecto promedio del tratamiento (ATE, por sus siglas en inglés). Impacto del
programa bajo el supuesto de cumplimiento total; es decir, todas las unidades que
hayan sido asignadas a un programa se inscriben realmente en él, y ninguna de las
unidades de comparación recibe el programa.
Encuesta de seguimiento. También conocida como encuesta “posterior a la
intervención”. Se trata de una encuesta realizada después de que el programa ha
comenzado, una vez que los beneficiarios se han beneficiado de él durante algún
tiempo. Una evaluación de impacto puede incluir varias encuestas de seguimiento, a
veces denominadas encuestas “intermedias” y “finales”.
Equipo de evaluación. Equipo que lleva a cabo la evaluación. Se trata en esencia de
una asociación entre dos grupos: un equipo de responsables de las políticas públicas
(equipo de políticas) y un equipo de investigadores (equipo de investigación).
EMARF (en inglés, SMART). Específico, medible, atribuible, realista y focalizado.
Los buenos indicadores tienen estas características.
Error de tipo I. También conocido como falso positivo. Este error se comete cuando
se rechaza una hipótesis nula que, en realidad, es válida. En el contexto de una
evaluación de impacto, se comete un error de tipo I cuando una evaluación llega a la
conclusión de que un programa ha tenido un impacto (es decir, se rechaza la hipóte-
sis nula de falta de impacto), aunque en realidad el programa no ha tenido impacto
(es decir, la hipótesis nula se mantiene). El nivel de significancia es la probabilidad de
cometer un error de tipo I.
Error de tipo II. También conocido como falso negativo. Este error se comete
cuando se acepta (no se rechaza) la hipótesis nula, pese a que esta última, de hecho,
no es válida. En el contexto de una evaluación de impacto, se comete un error de tipo
II cuando se llega a la conclusión de que un programa no ha tenido impacto (es decir
no se rechaza la hipótesis nula de falta de impacto), aunque el programa de hecho
tuvo impacto (es decir, la hipótesis nula no es válida). La probabilidad de cometer un
error de tipo II es 1 menos el nivel de potencia.
Estimación de tratamiento en los tratados. La estimación del impacto del
tratamiento en aquellas unidades que en la práctica se han beneficiado del trata-
miento. Compárese con intención de tratar.
Estimador. En Estadística, es una regla utilizada para calcular una característica
desconocida de una población a partir de los datos (técnicamente conocido como
“parámetro”); una estimación es el resultado de la aplicación real de una regla a una
muestra concreta de datos.
Estudio de efectividad. Analiza si un programa funciona en condiciones normales
al aumentar la escala. Cuando están adecuadamente diseñados e implementados, los
resultados de estos estudios pueden ser más generalizables que en el caso de los
estudios de eficacia.
Estudio de eficacia. Analiza si un programa puede funcionar en condiciones
ideales. Estos estudios se llevan a cabo en circunstancias muy específicas, a menudo
con una fuerte participación técnica de los investigadores durante la implementación
Glosario 365
del programa. Suelen emprenderse para probar la viabilidad de un programa nuevo.
Sus resultados no son generalizables más allá del alcance de la evaluación.
Evaluación. Valoración periódica y objetiva de un proyecto, un programa o una
política planificados, en curso o finalizados. Las evaluaciones se utilizan para
responder preguntas específicas, a menudo relacionadas con el diseño, la implemen-
tación o los resultados.
Evaluación de impacto. Evaluación que intenta establecer un vínculo causal entre
un programa o intervención y un conjunto de resultados. Una evaluación de impacto
procura responder a la pregunta: ¿cuál es el impacto (o efecto causal) de un programa
en un resultado de interés?
Evaluación de proceso. Evaluación que se centra en cómo se implementa y
funciona un programa, y que evalúa si se corresponde con su diseño original y docu-
menta su desarrollo y funcionamiento. Compárese con evaluación de impacto.
Evaluación prospectiva. Evaluaciones diseñadas y aplicadas antes de que se imple-
mente un programa. Las evaluaciones prospectivas están incorporadas en los planes
de implementación del programa. Compárese con evaluación retrospectiva.
Evaluación retrospectiva. Evaluación diseñada después de que se ha implemen-
tado un programa (ex post). Compárese con evaluación prospectiva.
Experimento de mecanismo. Evaluación de impacto que prueba un mecanismo
causal particular dentro de la teoría del cambio de un programa, en lugar de probar el
efecto causal (impacto) del programa como un todo.
Factor invariante en el tiempo. Factor que no varía a lo largo del tiempo; es
constante.
Factor variante en el tiempo. Factor que varía a lo largo del tiempo.
Falta de rango común. Cuando se utiliza el método de pareamiento, la falta de
rango común es una falta de superposición entre los puntajes de propensión del grupo
de tratamiento, o inscrito, y los del grupo de no inscritos.
Falta de respuesta. Se produce cuando faltan datos o los datos son incompletos
para algunas unidades de la muestra. La falta de respuesta de la unidad surge cuando
no hay información disponible para algunas unidades de la muestra, es decir, cuando
la muestra real es diferente de la muestra planificada. Una forma de falta de respuesta
a nivel de la unidad es el desgaste. La falta de respuesta de una entrada se produce
cuando los datos son incompletos para algunas unidades de la muestra en un
determinado momento del tiempo. La falta de respuesta puede generar sesgos en los
resultados de una evaluación si está asociada con la condición de tratamiento.
Falta de respuesta de la unidad. Surge cuando no hay información disponible
para un subconjunto de unidades; es decir, cuando la muestra real es diferente de la
muestra planificada.
Falta de respuesta de una entrada. Ocurre cuando los datos son incompletos
para algunas unidades de la muestra.

Generabilidad. La medida en que los resultados de una evaluación en un ámbito
local serán válidos en otros contextos y en otros grupos de población.
Grupo de comparación. También conocido como grupo de control. Un grupo de
comparación válido tendrá las mismas características, en promedio, que el grupo de
beneficiarios del programa (grupo de tratamiento), con la única diferencia de que las
unidades del grupo de comparación no se benefician del programa que se evalúa. Los
grupos de comparación se utilizan para estimar el contrafactual.
Grupo de control. También conocido como grupo de comparación (véase la
definición).
Grupo de tratamiento. También conocido como grupo tratado o grupo de
intervención. El grupo de tratamiento es el grupo de unidades que es objeto de una
intervención versus el grupo de comparación, que no es objeto de ella.
Hipótesis. Explicación propuesta de un fenómeno observable. Véase también
hipótesis nula e hipótesis alternativa.
Hipótesis alternativa. Suposición de que la hipótesis nula es falsa. En una evalua-
ción de impacto, la hipótesis alternativa suele ser la hipótesis de que la intervención
tiene un impacto en los resultados.
Hipótesis nula. Hipótesis que puede ser falsificada sobre la base de los datos
observados. Normalmente, la hipótesis nula propone una posición general o por
defecto. En la evaluación de impacto, la hipótesis nula suele ser que el programa no
tiene impacto, es decir: la diferencia entre el resultado del grupo de tratamiento y el
grupo de comparación es cero.
Impacto. También conocido como efecto causal. En el contexto de las evaluaciones
de impacto, un impacto es un cambio directamente atribuible a un programa, a una
modalidad del programa o a innovaciones de diseño.
Indicador. Variable que mide un fenómeno de interés para el evaluador. El fenó-
meno puede ser un insumo, un producto, un resultado, una característica o un
atributo. Véase también EMARF.
Índice de elegibilidad. También conocido como variable forzada. Se trata de una
variable que permite clasificar a la población de interés a lo largo de una línea
continua y tiene un umbral o una puntuación límite que determina quién es elegible
y quién no lo es.
Insumos. Los recursos financieros, humanos y materiales utilizados en la
intervención.
Intención de tratar (ITT, por sus siglas en inglés). Las estimaciones de ITT
miden la diferencia en los resultados entre las unidades asignadas al grupo de trata-
miento y las asignadas al grupo de comparación, independientemente de si las
unidades de cada grupo recibieron en realidad el tratamiento.
Intervención. En el contexto de la evaluación de impacto, se trata del proyecto, del
programa o de la política que se evalúa. También conocida como tratamiento.
Glosario 367
Junta de revisión institucional (JRI). Comité nombrado para examinar, aprobar y
monitorear la investigación con sujetos humanos. También conocido como Comité
de ética independiente o Junta de revisión ética.
Línea de base. Situación previa a una intervención, con respecto a la cual se puede
valorar el progreso o se pueden hacer comparaciones. La línea de base se recopila en
forma previa a la implementación de un programa o política para observar la
situación antes. La disponibilidad de datos de línea de base es fundamental para
documentar el equilibrio en las características anteriores al programa entre los
grupos de tratamiento y de comparación. Los datos de línea de base son necesarios
para algunos diseños cuasi experimentales.
Marco muestral. Lista exhaustiva de las unidades de la población de interés. Se
requiere un marco muestral adecuado para asegurar que las conclusiones a las que se
arribe a partir del análisis de una muestra se puedan generalizar a toda la población.
Las diferencias entre el marco muestral y la población de interés crea un sesgo de
cobertura. Ante la presencia de dicho sesgo, los resultados de la muestra no tienen
validez externa para toda la población de interés.
Método cuasi experimental. Métodos de evaluación de impacto que no dependen de
la asignación aleatoria del tratamiento. Las diferencias en diferencias, el diseño de
regresión discontinua y el pareamiento son ejemplos de métodos cuasi experimentales.
Método de control sintético. Un método de pareamiento específico que permite
estimar el impacto en contextos donde una única unidad (como un país, una empresa
o un hospital) es objeto de una intervención o es expuesto a un suceso. En lugar de
comparar esta unidad tratada con un grupo de unidades no tratadas, el método
utiliza información sobre las características de la unidad tratada y las unidades no
tratadas para construir una unidad de comparación sintética o artificial, ponderando
cada unidad no tratada de tal manera que la unidad de comparación sintética se
parezca todo lo posible a la unidad tratada. Esto requiere una larga serie de observa-
ciones a lo largo del tiempo, tanto de las características de la unidad tratada como de
las unidades no tratadas. Esta combinación de unidades de comparación en una
unidad sintética proporciona una mejor comparación para la unidad tratada que
cualquier unidad no tratada individualmente.
Métodos mixtos. Enfoque analítico que combina datos cuantitativos y cualitativos.
Minería de datos. Práctica de manipular los datos en busca de resultados concretos.
Monitoreo. Proceso continuo de recopilar y analizar información para evaluar el
desempeño de un proyecto, un programa o una política. El monitoreo suele hacer un
seguimiento de los insumos, actividades y productos, aunque ocasionalmente también
incluye los resultados. Se utiliza para fundamentar la gestión y las decisiones diarias.
También se puede emplear para hacer un seguimiento del desempeño en relación
con los resultados previstos, establecer comparaciones entre programas y analizar
las tendencias a lo largo del tiempo.
Muestra aleatoria. Muestra extraída a partir de un muestreo probabilístico, por lo
cual cada unidad en el marco muestral tiene una probabilidad conocida de ser
extraída. Seleccionar una muestra aleatoria es la mejor manera de evitar una muestra

no representativa. El muestreo aleatorio no debería confundirse con la asignación
aleatoria.
Muestra conglomerada. Una muestra compuesta de clusters.
Muestra estratificada. Se obtiene dividiendo la población de interés (marco mues-
tral) en grupos (por ejemplo, hombres y mujeres) y luego definiendo una muestra
aleatoria en cada grupo. Una muestra estratificada es una muestra probabilística:
todas las unidades de cada grupo (o estrato) tienen la misma probabilidad de ser
asignadas. Siempre que todos los grupos sean lo bastante grandes, el muestreo
estratificado permite elaborar inferencias a propósito de los resultados no solo a
nivel de la población sino también dentro de cada grupo.
Muestra. En Estadística, una muestra es un subconjunto de una población de interés.
Normalmente, la población es muy grande, lo cual hace impracticable o imposible
realizar un censo o un registro completo de todos sus valores. En cambio, los investi-
gadores pueden seleccionar un subconjunto representativo de la población (utili-
zando un marco muestral) y recopilar estadísticas sobre la muestra. Estas se pueden
utilizar para hacer inferencias o para extrapolar a la población. Este proceso se
conoce como muestreo. Compárese con censo.
Muestreo. Proceso por el cual las unidades se extraen del marco muestral creado a
partir de la población de interés. Se pueden utilizar diversas alternativas de procedi-
mientos de muestreo. Los métodos de muestreo probabilístico son los más rigurosos,
ya que asignan una probabilidad bien definida a cada unidad que será extraída. El
muestreo aleatorio, el muestreo aleatorio estratificado y el muestreo conglomerado son
métodos de muestreo probabilístico. El muestreo no probabilístico (por ejemplo, el
muestreo intencional o por conveniencia) puede generar errores de muestreo.
Muestreo probabilístico. Proceso de muestreo que asigna una probabilidad bien
definida a cada unidad que será extraída de un marco muestral. Incluye el muestreo
aleatorio, el muestreo aleatorio estratificado y el muestreo de clusters.
Pareamiento por puntajes de propensión. Método de pareamiento que depende
de los puntajes de propensión para encontrar el mejor grupo de comparación posible
para un determinado grupo de tratamiento.
Pareamiento. Método no experimental de evaluación de impacto que utiliza grandes
bases de datos y técnicas estadísticas para construir el mejor grupo de comparación
posible para un determinado grupo de tratamiento sobre la base de características
observables.
Población de interés. Grupo exhaustivo de todas las unidades (como individuos,
hogares, empresas, centros) elegibles para recibir una intervención o un tratamiento,
y para los cuales una evaluación de impacto se propone estimar los impactos del
programa.
Potencia (o potencia estadística). Probabilidad de que una evaluación de impacto
detecte un impacto (es decir, una diferencia entre el grupo de tratamiento y el grupo
de comparación) cuando, de hecho, hay un impacto. La potencia es igual a 1 menos la
probabilidad de un error de tipo II, que oscila entre 0 y 1. Los niveles habituales de
Glosario 369
potencia son 0,8 y 0,9. Los niveles altos de potencia son más conservadores, lo que
significa que hay una baja probabilidad de no detectar los impactos reales del
programa.
Potencia estadística. La potencia de una prueba estadística es la probabilidad de
que la prueba rechace la hipótesis nula cuando la hipótesis alternativa es verdadera
(es decir, que no se cometerá un error de tipo II). A medida que la potencia aumenta,
la probabilidad de un error de tipo II disminuye. La probabilidad de un error de tipo
II se denomina tasa negativa falsa (). Por lo tanto, la potencia es igual a 1 - .
Producto. Productos, bienes y servicios tangibles producidos (suministrados)
directamente por las actividades de un programa. La generación de productos está
directamente bajo el control del organismo ejecutor del programa. El uso de los
productos por parte de los beneficiarios contribuye a cambios en los resultados.
Promoción aleatoria. Método de variables instrumentales para estimar los impac-
tos de un programa. El método asigna de forma aleatoria a un subgrupo de unidades
una promoción, o incentivo, para participar en el programa. La promoción aleatoria
busca aumentar la participación voluntaria en un programa en una submuestra de la
población seleccionada aleatoriamente. La promoción puede adoptar la forma de un
incentivo, estímulo o información adicional que motiva a las unidades a inscribirse
en el programa, sin influir directamente en el resultado de interés. De esta manera, el
programa puede quedar abierto a todas las unidades elegibles.
Prueba de placebo. Prueba falsificada que se utiliza para evaluar si los supuestos
de un método se mantienen. Por ejemplo, cuando se aplica el método de diferencias
en diferencias, se puede implementar una prueba de placebo utilizando un grupo de
tratamiento falso o un resultado falso, es decir: un grupo o resultado que se sabe que
no se ve afectado por el programa. Las pruebas de placebo no pueden confirmar que
los supuestos sean válidos, pero pueden poner de manifiesto los casos en que los
supuestos no se sostienen.
Prueba de significancia. Prueba de si la hipótesis alternativa alcanza el nivel
predeterminado de significancia con el fin de que esta se acepte de preferencia a la
hipótesis nula. Si una prueba de significancia da un valor p menor que el nivel de
significancia estadística (), la hipótesis nula es rechazada.
Puntaje de propensión. En el contexto de la evaluación de impacto, el puntaje de
propensión es la probabilidad de que una unidad participe en el programa sobre la
base de las características observables. Esta puntuación es un número real entre 0 y
1 que resume la influencia de todas las características observables en la probabilidad
de inscribirse en el programa.
Resultado. Resultado de interés que se mide a nivel de los beneficiarios del pro-
grama. Resultados que deben alcanzarse una vez que la población beneficiaria utilice
los productos del proyecto. Los resultados no están directamente bajo el control de
un organismo ejecutor del programa. En ellos influye tanto la implementación de un
programa (las actividades y productos que genera) como las respuestas de las conduc-
tas de los beneficiarios expuestos a ese programa (el uso que los beneficiarios hacen
de los beneficios a los que están expuestos). Un resultado puede ser intermedio o

final (de largo plazo). Los resultados finales son resultados más distantes. La distan-
cia se puede interpretar en términos de tiempo (se tarda más en conseguir el resul-
tado) o en términos de causalidad (se requieren numerosos vínculos causales para
alcanzar el resultado y en ello influyen múltiples factores).
Selección. Se produce cuando la participación en el programa se basa en las
preferencias, decisiones o características no observables de los participantes o de los
administradores del programa.
Sesgo. En la evaluación de impacto, el sesgo es la diferencia entre el impacto que se
calcula y el verdadero impacto del programa.
Sesgo de cobertura. Se produce cuando un marco muestral no coincide exacta-
mente con la población de interés.
Sesgo de selección. El impacto estimado sufre un sesgo de selección cuando se
desvía del impacto verdadero en presencia de la selección. Esto suele ocurrir cuando
se correlacionan motivos no observados para participar en el programa con los resul-
tados. Este sesgo normalmente acontece cuando el grupo de comparación es no elegi-
ble o se autoexcluye del tratamiento.
Sesgo de sustitución. Efecto no intencionado de la conducta que afecta al grupo de
comparación. Las unidades que no fueron seleccionadas para recibir el programa
pueden encontrar buenos sustitutos para el tratamiento a través de su propia
iniciativa.
Significancia. La significancia estadística señala la probabilidad de cometer un
error de tipo I; es decir, la probabilidad de detectar un impacto que en realidad no
existe. El nivel de significancia suele señalarse con el símbolo griego  (alfa). Los
niveles más habituales de significancia son del 10%, 5% y 1%. Cuanto menor sea el
nivel de significancia, mayor será la confianza de que el impacto estimado es real.
Por ejemplo, si el nivel de significancia se fija en 5%, se puede tener un 95% de con-
fianza al concluir que el programa ha tenido impacto, si de hecho se observa un
impacto significativo.
Simulaciones ex ante. Evaluaciones que utilizan datos disponibles para simular
los efectos previstos de un programa o de la reforma de una política en los resultados
de interés.
Supuesto de estabilidad del valor de la unidad de tratamiento (SUTVA).
Requisito básico de que el resultado de una unidad no debería verse afectado por la
asignación del tratamiento a otras unidades. Esto es necesario para asegurar que la
asignación aleatoria produzca estimaciones de impacto no sesgadas.
Tamaño del efecto. Magnitud del cambio en un resultado, que es causado por una
intervención.
Teoría del cambio. Explica los canales a través de los cuales los programas pueden
influir en los resultados finales. Describe la lógica causal de cómo y por qué un
programa, una modalidad de programa o una innovación de diseño en particular
logrará sus resultados deseados. Una teoría del cambio es una pieza clave en cualquier
evaluación de impacto, dada la focalización de causa y efecto de la investigación.
Glosario 371
Tratamiento. Véase intervención.
Tratamiento en los tratados (TOT, por sus siglas en inglés). Las estimaciones
TOT miden la diferencia en los resultados entre las unidades que en efecto reciben el
tratamiento y el grupo de comparación.
Unidad. Persona, hogar, comunidad, empresa, escuela, hospital u otra unidad de
observación que pueda ser objeto de un programa o verse afectada por él.
Validez externa. Una evaluación es externamente válida si la muestra de la evalua-
ción representa con precisión a la población de unidades elegibles. Los resultados de
la evaluación luego se pueden generalizar a la población de unidades elegibles.
Estadísticamente, para que una evaluación de impacto sea externamente válida, la
muestra de la evaluación debe ser representativa de la población de interés. Véase
también validez interna.
Validez interna. Una evaluación es internamente válida si proporciona una
estimación precisa del contrafactual mediante un grupo de comparación válido.
Variable. En la terminología estadística, se trata de un símbolo que representa un
valor que puede variar.
Variable dependiente. Normalmente, es la variable de resultado. Se trata de la
variable que hay que explicar, por oposición a las variables explicativas.
Variable explicativa. También conocida como variable “independiente”. Se trata de
una variable utilizada en el lado derecho de una regresión para ayudar a explicar la
variable dependiente en el lado izquierdo de la regresión.
Variable instrumental (VI). También conocida como instrumento. Se basa en el uso
de una fuente externa de variación para determinar la probabilidad de participación
en el programa cuando la participación en el mismo está relacionada con los resulta-
dos potenciales. El instrumento se encuentra fuera del control de los participantes y
no tiene relación con las características de los mismos.
Variables no observadas. Se trata de características no observables. Pueden
incluir particularidades como la motivación, las preferencias u otros rasgos de la
personalidad que son difíciles de medir.

ECO-AUDIT
Declaración de beneficios ambientales
El Grupo del Banco Mundial está comprometido a reducir su huella

ambiental. En apoyo de este compromiso, la División de Publicaciones
y Conocimiento impulsa las opciones de publicación electrónica y la
tecnología de impresión bajo demanda, que funciona en centros regio-
nales de todo el mundo. De forma conjunta, estas iniciativas permiten
disminuir la cantidad de material impreso y acortar las distancias de
envío, lo cual reduce el consumo de papel, el uso de químicos, las emi-
siones de gases de efecto invernadero y la basura. La División de
Publicaciones y Conocimiento sigue las recomendaciones estándares
para el uso de papel establecidas por la Green Press Initiative. La
mayoría de nuestros libros se imprimen en papel certificado Forest
Stewardship Council (FSC), que contiene cerca de un 50%-100% de
material reciclado. Las fibras recicladas del papel de nuestros libros
no se blanquean o bien se las blanquea mediante un proceso total-
mente libre de cloro, o con cloro elemental o mejorado. Para más
información sobre la filosofía ambientalista del Banco, visítese el
sitio http://www.worldbank.org/corporateresponsibility.

Camilonchi

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Camilonchi

Hochgeladen von

Copyright:

Verfügbare Formate

La evaluación de

Este libro ha sido posible gracias al generoso

Paul J. Gertler, Sebastián Martínez,

Acerca de los autores xxiii

PRIMERA PARTE. INTRODUCCIÓN A

Capítulo 1. ¿Por qué evaluar? 3

Capítulo 2. La preparación de una evaluación 35

SEGUNDA PARTE. CÓMO EVALUAR 51

Capítulo 3. Inferencia causal y contrafactuales 53

Capítulo 4. La asignación aleatoria 71

Capítulo 5. Las variables instrumentales 99

Capítulo 6. Diseño de regresión discontinua 125

Capítulo 7. Diferencias en diferencias 143

Capítulo 8. Pareamiento 159

Capítulo 10. Evaluación de programas multifacéticos 195

TERCERA PARTE. CÓMO IMPLEMENTAR UNA

Capítulo 11. Elección de un método de evaluación de impacto 207

Capítulo 12. Gestión de una evaluación de impacto 223

Capítulo 13. La ética y la ciencia en la evaluación

Capítulo 14. Divulgación de resultados y generación

Elaboración a la medida de una estrategia de comunicación

CUARTA PARTE. CÓMO OBTENER DATOS

Capítulo 15. La elección de una muestra 291

Capítulo 16. Encontrando fuentes adecuadas de datos 323

Capítulo 17. Conclusiones 355

x La evaluación de impacto en la práctica

xii La evaluación de impacto en la práctica

xiv La evaluación de impacto en la práctica

Este libro ofrece una introducción accesible al tema de la evaluación de

Hoja de ruta de los contenidos del libro

En la primera parte, “Introducción a la evaluación de impacto” (capítulos 1

xvi La evaluación de impacto en la práctica

Material complementario en línea

En el sitio web de la evaluación de impacto en la práctica se ofrecen mate-

xviii La evaluación de impacto en la práctica

Desarrollo de La evaluación de impacto en la

La primera edición del libro La evaluación de impacto en la práctica se basaba

xxii La evaluación de impacto en la práctica

Paul J. Gertler es profesor de economía en la cátedra Li Ka Shing de la

Sebastián Martínez es economista principal en la Oﬁcina de Planiﬁcación

Patrick Premand es economista senior en protección social y práctica glo-

Laura B. Rawlings es especialista líder en protección social en el Banco

Christel M. J. Vermeersch es economista senior en Práctica Global en

xxiv La evaluación de impacto en la práctica

Acerca de los autores xxv

3IE Iniciativa Internacional para la Evaluación de Impacto

xxviii La evaluación de impacto en la práctica

La primera parte de este libro presenta una visión general de la evaluación de

¿Por qué evaluar?

La formulación de políticas basada en evidencia

Los programas y políticas de desarrollo suelen estar diseñados para cambiar

Recuadro 1.1: Cómo una evaluación exitosa puede promover la

El programa de transferencias condicio- impacto y la incorporaran en la ampliación

Continúa en la página siguiente.

¿Por qué evaluar? 5

El recuadro 1.2 ilustra cómo la evaluación de impacto inﬂuyó en la polí-

6 La evaluación de impacto en la práctica

Desarrollo preescolar y de la primera La evaluación llegó a la conclusión de que

Fuente: Martínez, Nadeau y Pereira (2012).

¿Qué es la evaluación de impacto?

La evaluación de impacto es uno de los numerosos métodos que existen

• Preguntas descriptivas, que apuntan a lo que está ocurriendo. Se centran

¿Por qué evaluar? 9