Sie sind auf Seite 1von 2

[caption id="" align="left" width="150"] Alan Garca Prez (Photo credit:

Wikipedia)[/caption]
El tuit de Beneficios Sols me dio una idea:
https://twitter.com/bensolis/status/355176156233871360
Creo que las herramientas de Linux pueden ser de mucha ayuda para "parsear"
informacin presente en documentos PDF y texto para obtener informacin de importancia
periodstica.
Miremos la informacin que se puede obtener en el caso de los #narcoindultos durante el
segundo gobierno de Alan Garca.
El periodista Martn Hidalgo ha colgado documentos en su cuenta de Scribd conteniendo la
lista de indultados por Alan Garca (segundo gobierno) que haban reincidido y otra vez
estaban siendo procesados por diversos delitos.
Este es uno de los archivos:
[scribd id=134324226 key=key-27stuguvggg6tmxa1sue mode=scroll]
Baj los 5 documentos que eran imagnes escaneadas que haban sido convertidas a PDF.
Es mejor tener la informacin en texto par que pueda ser trabajado. Entonces haba que
convertir el PDF -> en imagen -> a texto.
Existen varias herramientas en linux s que pueden ayudar con esto: todos los comandos
son ejecutados desde la consola debcomandos o terminal:
[code language="bash"] # extraer la imagen desde el PDF pdfimages DOC2.pdf doc2 [/code]
Con lo que obtuve el archivo de imagen doc2-000.ppm
Para convertir la imagen a texto podemos usar la herramienta OCR llamada tesseract:
[code language="bash"] # convertir imagen a texto tesseract doc2-000.ppm doc2 -l spa#
eliminar lneas en blanco sed -i '/^$/d' doc2.txt [/code]
Obtuve el archivo de texto doc2.txt conteniendo todos los nombres. Luego de corregir
algunas pequeas fallas, y ordenar la lista de tal manera que quede un nombre por lnea era
cuestin de comparar esta lista con los decretos presidenciales para averiguar en qu fecha
les fue otorgado us narcoindultos.
La web del min de justicia tiene colgados pdfs de todas sus normas, incluyendo los
narcoindultos. Usando google encontr que estos archivos estn ordenados por fecha con
un formato masomenos consistente:
Por ejemplo, para el 4 de Mayo del 2010 el archivo correspondiente es est en esta
direccin http://spij.minjus.gob.pe/Normas/textos/040510T.pdf

Para bajar los PDFs en grupo escrib una direccin web por lnea usando un editor de texto
cualquiera:
http://spij.minjus.gob.pe/Normas/textos/030510T.pdf
<li>http://spij.minjus.gob.pe/Normas/textos/040510T.pdf</li>
<li>http://spij.minjus.gob.pe/Normas/textos/050510T.pdf</li>

Grab el archivo con el nombre list.txt y us el comando de Linux wget para bajar todos los
archivos de la lista:
[code language="bash" light="true"] wget -i list.txt [/code]
Luego de ejecutarse la descarga obtuve estos archivos:
No es necesario usar OCR para convertir estos PDFs a texto:
[code language="bash"] pdftotext 030510T.pdf pdftotext 040510T.pdf pdftotext
050510T.pdf [/code]
Con lo que obtuve los archivos en texto con la extensin cambiada a .txt
Luego es cuestion de hacer un simple "crossover" de la lista de indultados que han
reincidido versus los archivos de texto conteniendo las normas del Ministerio de Justicia:
[code language="bash" light="true"] cat doc2.txt | awk '{print $1 " " $2 ", " $3}' | while read
APELLIDOS; do grep "${APELLIDOS}" *.txt ; done [/code]
Ese comando se asegura que los nombres de los indultados estn en el formato usado por
el minjus (Apellido Paterno Apellido Materno "coma" Primer Nombre). Luego hace una
bsqueda de cada nombre en todos los archivos .TXT que tenemos en el actual directorio.
Bingo!
Hay dos coincidencias:
Si revisamos el archivo con la lista de indultados (doc2.txt) vemos que JARAMILLO
BRIGIDO, CLINIA ha vuelto a ser procesada por el delito de trfico ilcito de drogas. Es este
un narcoindulto?
Imagnese lo que podramos encontrar si bajamos TODAS las normas emitidas por el
minjus durante el perodo 2006-2011 y buscar cuand es que fueron indultados estos
angelitos. Podramos hacer un tuit ese da recordando que se le dio la gracia presidencial a
alguien que talvez no lo necesitaba y bajo muy sospechosas circunstancias (tomando en
cuenta todo lo que sabemos acerca de los posibles pagos bajo la mesa).

Das könnte Ihnen auch gefallen