Beruflich Dokumente
Kultur Dokumente
Comics
OCR TEXTO
Este es un mtodo prehistrico, que se implement cuando se comenzaron a aparecer
los scanners de puerto paralelo y bajo Win98, cuando el ancho de banda tambin era
una gran limitacin. El mtodo implica los siguientes pasos:
1) Escanear el libro completamente.
2) Realizar el OCR.
3) Corregir a mano el resultado del OCR.
4) Convertir el resultado en archivo DOC, RTF, TXT, LIT o PDF.
A FAVOR
1) Los libros ocupan pocos Kbs.
EN CONTRA
1) El OCR no es 100% confiable, como el resultado de la edicin manual.
2) Demora muchsimo tiempo la correccin manual que implicar leer todo el libro para
corregir errores.
3) No coincide la numeracin de pginas entre el libro original y el libro digital.
Este mtodo es el utilizado por casi todos los grupos de digitalizacin, del IRC o
YAHOO.
OCR IMAGEN
Esta forma de digitalizacin, surge de un grupo dedicado a la digitalizacin de libros de
derecho llamado Neopanopticum que luego se llam El_panoptico y que hoy se llama
BJA - Biblioteca Jurdica Argentina.
El problema para el grupo era que la correccin manual del OCR implicaba que se
demoraba hasta 3 meses para tener listo un libro. Principalmente porque las notas al pi
de pgina deban ser casi en todos los casos escritas desde cero. Esto es una norma para
casi todos los libros cientficos en los que las citas al pi son varias y extensas. Ademas
los profesionales debemos citar las fuentes, lo que obliga a indicar adems de la obra la
pgina donde se encuentra el texto o referencia.
La digitalizacin de OCR TEXTO no mantiene excatamente la correlacin de las
pginas con las del libro original.
En razon de este problema se cambi completamente el sistema de digitalizacin,
optndose por este proceso:
1) Escanear el libro completamente.
2) Recortar las imgenes de cada pgina eliminando margenes intiles.
3) Realizar el OCR.
4) Convertir el resultado en PDF.
A FAVOR
1) Los libros son una copia exacta del original.
2) No existe ningn tipo de error.
3) Los PDF permiten buscar rpidamente una palabra dentro del libro.
EN CONTRA
No tiene ninguna contra, pero podra decirse que los libros en OCR IMAGEN ocupan
un poco ms que los de OCR TEXTO, pero eso hoy no es un inconveniente con el
ancho de banda disponible.
En el caso del anlisis automtico, una vez que FR ha definido las reas de
reconocimiento se recomienda:
* eliminar del mismo los nmeros de pgina, los cabezales y pies de pgina.
* corregir aquellos errores que FR hubiera interpretado como dibujos o textos.
* corregir los bloques de texto que FR hubiera podido saltearse.
* verificar el orden de los bloques de texto a reconocer.
Para ello, puedes valerte de la barra de herramientas lateral en la ventana de Imagen
para agregar/corregir/eliminar bloques de texto e imagen.
4. Reconociendo el texto
Para esta altura ya se le puede dar la orden al programa de reconocer (leer) todas las
imgenes (Ctrol+Shift+R). Opcionalmente, se pueden reconocer pginas individuales
(Ctrol+R) o un bloque de texto en particular (Ctrol+Shift+B).
El proceso de cmo funciona es el siguiente: FR reconoce letra a letra segn su
contorno y cuando se encuentra con un espacio en blanco, determina el final de una
palabra. Esa palabra luego es chequeada contra su diccionario; si encuentra un error la
reemplaza por la que figura en el diccionario y seala el cambio con un marcador
celeste; si la palabra no figura en su diccionario la escribe segn el reconocimiento y la
seala con el marcador.
Una vez que FR termin de reconocer todo el texto, es necesario recorrer pgina por
pgina revisando las marcas celestes. Puede que una palabra marcada con este color est
bien escrita, en ese caso no es necesario hacer nada. Caso contrario, puedes verificar el
error viendo la ampliacin de imagen que aparece en la ventana superior y corregirlo.
Esta etapa es muy importante ya que el FR puede detectar errores que el Word no puede
reconocer.
puntos, ingresando:
,^p
;^p
:^p
respectivamente.
Saltos de pgina con corte de palabra.
Los saltos de pgina con corte de palabra se pueden corregir automticamente buscando
la secuencia guin + marca de salto de prrafo (-^p) y reemplazndola por nada. Esto
suprimir todos los guiones y los salto de prrafo dejando las palabras nuevamente
unidas.
Diferenciar y jerarquizar los ttulos y subttulos para diferenciarlos del resto del texto
La nica manera de chequear esto es recorrer el texto entero. Lo ms conveniente es
asignarle un estilo a los ttulos y otro a los subttulos, definiendo un estilo diferente (por
tipografa y tamao) al del texto general y al de cualquier otro estilo usado.
Correccin de errores que a veces no son detectados por el corrector automtico
En el OCR hay errores comunes que suelen aparecer frecuentemente. Estos son:
* Confusin del nexo coordinante y por v : la solucin es Buscar y reemplazar
todos los (espacio)v(espacio) por (espacio)y(espacio), ya que en la sintaxis castellana, la
v corta no va suelta en ningn caso.
* Reemplazo de letras por dgitos, y comprobacin de dgitos en el documento: la
solucin es realizar una bsqueda avanzada seleccionando [cualquier nmero].
Conviene hacer esta comprobacin porque sucede a menudo que el texto original tiene
defectos que hacen que el OCR confunda por ejemplo l con 61 o la letra l con
1 , etc.
7. Uso del corrector ortogrfico en Word
Dirgete al men Herramientas > Opciones, y en la solapa de Ortografa y gramtica,
setea la opcin de Estilo de escritura a Verificacin exhaustiva. Luego inicia la
correccin interactiva en Word de todo el documento pulsando F7. Tambin asegrate,
habiendo previamente seleccionado todo el texto (Ctrol + E), de definir el idioma a
espaol desde el men Herramientas > Idioma.
Un problema frecuente es que Word muestre los nombres propios como errores, ya que
por lo general no se encuentran en su diccionario. Para evitar esto, al llegar a un nombre
propio, indicale la opcin de Omitir todos de manera que no vuelva a preguntar por lo
mismo. Aplcalo tambin con palabras raras o propias del texto.
8. Correccin por lectura
An en la actualidad, los programas no tienen la inteligencia suficiente como para
comprender un texto; simplemente se rigen por sus diccionarios. Puede que exista un
error pero al detectar que una determinada combinacin de letras corresponde a una
Guarda el batch, esto es muy importante para que no vayas a perder ningn archivo en
el proceso.
Si por alguna razn debes parar tu trabajo y seguir ms tarde u otro da, despus slo
ser cosa de que abras este batch con el FR y recomenzar donde quedaste.
Ahora viene el momento de comenzar el scan. Lo primero que tienes que hacer es
sealarle algunos parmetros a FR para que salga bien tu trabajo y sea ms fcil.
Selecciona Split dual pages, asi el programa dividir automticamente las pginas de
los libros cuando estos los escanees de a dos pginas a la vez. Ojo: si el libro es muy
grande y slo puedes escanear pgina a pgina no es necesario que selecciones esta
opcin.
Tambin selecciona Detect orientation (durant recognition), para que el FR enderece
aquellas pginas que han quedado en una posicin distinta a la del libro al hacer el scan.
Las opciones de scan van a variar de acuerdo a las especificaciones de tu scanner. Aqu
nosotros recomendamos usar el controlador propio de cada aparato. Si no sabes usarlo
recurre a los manuales que deben haber venido con tu scanner.
El scan debe realizarse: en blanco y negro, resolucin de 300 dpi, cuidando de que las
imgenes no salgan ni muy claras (porque se pueden perder contenidos) ni muy oscuro
(porque pueden aparecer muchas manchas)
VEAMOS COMO TRABAJAR CON EL LIBRO SOBRE EL SCANNER
Primero ver si el libro se puede escanear a pgina doble sin que sobresalgan mrgenes.
El libro debe encuadrarse prefectamente dentro del campo del scanner:
El libro siempre debe encuadrarse entre el angulo recto izquierdo del scanner.
Tomndose la linea vertical izquierda y la base horizontal como referencias para
encuadrar correctamente el libro en el scanner.
El lomo del libro tiene que estar siempre lo ms bajos posible, para evitar la franja negra
que se produce por dejar espacio.
Los libros a escanearse a pgina simple. Son aquellos libros que no pueden escanearse a
pgina doble por el formato propio del libro, ya que supera el formato A4, esto implica
escanear hoja a hoja. Este proceso importa dubplicar el tiempo de escaneo, veamos la
secuencia:
Primero escaneamos una pgina:
hora rotamos el libro en el sentido de las agujas del reloj 360 y escaneamos la otra
pgina:
Lo mejor es siempre sacarle la tapa al escanner o desarmarlo para trabajar con mayor
comodidad.
Una vez tengan todo el libro escaneado, guarden el lote por seguridad.
CONSIDERACIONES PREVIAS A DIGITALIZAR
1) El tamao del libro.
Resulta muy importante tener presente el tamao de la encuadernacin del libro a
digitalizar, antes de iniciar el trabajo de digitalizacin se debe presentar el libro sobre el
scanner para calcular si el mismo resulta apto para una rpida digitalizacin.
La mayora de los escanners tienen una superficie de escaneo equivalente al tamao de
hoja A4. Eso significa que presentando una hoja A4 sobre la superficie del libro abierto
y vemos que superficie cubre el A4 sobre las dos hojas de libro.
Lo ideal resultara que el libro abierto a doble pgina encaje perfectamente dentro del
campo del scanner y de la hoja A4, sin que sobresalgan mrgenes laterales, inferiores o
superiores.
Lo ideal siempre resulta que se puedan escanear a pagina doble, pero en muchos casos
no resulta posible ya que el tamao de las hojas del libro no lo permite, y el escaneo
Mucha gente escoge el tamao del ancho del comic en base a la resolucin de su
monitor para que coincidan, de manera que si tienen una resolucin de 1024x768 el
tamao del ancho de la pgina del comic lo hacen de 1024. Esto es un error, ya que la
resolucin del monitor es variable, y aunque 1024 es actualmente el ancho ms
extendido, es mas que probable que no lo sea en el futuro, de la misma manera que
antes la resolucin ms extendida era 800x600 (y sucesivamente...). De manera que lo
ideal es escoger un tamao en el cual el comic se lea suficientemente bien sin perder
detalles, sin un pixelado exagerado y sin que resulte un tamao de archivo final enorme.
En general para un tamao de pgina normal entre 150 y 160 dpi suele ser suficiente.
Es importante escanear con unos valores de brillo y contraste neutros, si el comic resulta
claro u oscuro ya se utilizarn ms tarde herramientas para corregirlo, las herramientas
de correccin de brillo y contraste automticas suelen dejar el comic demasiado
contrastado y con detalles empastados. Otra razn de utilizar valores neutros es para que
a la hora de corregir o mejorar la imagen se utilicen los mismos valores para todo un
comic en vez de hacerlo pgina por pgina, pero principalmente los niveles automticos
o Autolevels quedan fatal especialmente en escaneos de papel normal. Una vez reducido
el tamao se le puede aplicar un filtro que da muy buen resultado: el filtro unsharp
Mask (Mscara de enfoque). Aplicado con los valores: cantidad: 50% y radio:1px
02.Giro y recorte
El siguiente paso es girar la pgina. Normalmente es difcil escanear la pgina de
manera que est completamente recta y realmente cuesta menos girarla en photoshop
que procurar el escaneo perfecto. Para girar la pgina podemos seleccionar un rea o
toda la pgina (ctrl+a) y luego girar la seleccin (ctrl+t) "a ojo". Un mtodo ms preciso
es utilizar la herramienta Measure Tool (i). Seleccionamos la herramienta y pinchamos
en una esquina del comic, mantenemos y arrastramos hasta otra esquina para indicar al
programa la inclinacin que debe corregir: Al escoger la opcin de men: Image> rotate
canvas > arbitrary... el valor que sale es exactamente el que necesitas para girar la
pgina.
Tambin podemos utilizar la opcin de men rotate canvas sin aplicar el measure tool
"a ojo" . Cuando llevamos unas cuantas decenas de comics es normal acertar con el
ngulo aproximado. Lo siguiente ser recortar la imagen, para lo que utilizaremos la
herramienta crop tool (c) y ya podemos guardar la pgina. Con la herramienta
seleccionamos el rea y recortamos haciendo doble clic en el interior de rea
seleccionada. Podemos tirar de los bordes para aumentar o disminuir el rea
seleccionada. Con la herramienta Crop Tool podemos adems girar y recortar la imagen
en un paso. Si acercamos el ratn a las esquinas nos aparecern unos tiradores con los
que podremos girar la imagen, luego hacemos doble clic y la tenemos recortada y girada
con un solo paso.
03. Correccin tonal.
Photoshop ofrece una gran cantidad de herramientas destinadas al tratamiento de la
imagen, conocindolas en profundidad y combinando unas y otras pueden dar unos
resultados espectaculares, sumndolo a la capacidad de crear srcipts (acciones), que
automatizan estas tareas hacen que el esfuerzo para conseguirlo sea mnimo, unas
pruebas en una pgina (o dos) creas una accin y la aplicas a todo un comic que
previamente has escaneado. Muchas de las tcnicas son algo complejas y requieren
muchos pasos, intentar ir de menos a ms.
He ledo en tutoriales recomendar utilizar el automtico de Photoshop. Image >
adjustments > Autolevels (ctrl+shift+l). En mi opinin es un error utilizar autolevels.
No hay dos comics iguales y no se puede generalizar, pero normalmente usar autolevels
tiene como consecuencia un resultado demasiado oscuro. En la mayora de los comics el
color negro no llega al negro "puro", por lo que forzarlo supone un aumento del
contraste, ruido etc. Un valioso consejo en este sentido es que siempre es mejor "no
llegar" que "pasarse". Por no mencionar que alguna pgina que est planteada como
especialmente clara u oscura aparecer con las tonalidades desvirtuadas. .
Antes de comprobar los niveles es muy importante asegurarse de que nuestro monitor
est correctamente configurado. Una manera simple de saberlo es utilizando un par de
imgenes de correccin de gamma. En la primera imagen tenemos que ver el cuadrado
del centro de una tonalidad lo ms parecida posible al recuadro de fuera, en la segunda
imagen debemos poder distinguir (aunque sea levemente) los cuadrados negros de los
grises oscuros.
stas imgenes y el programa de configuracin lo encontramos en el panel de control >
adobe gamma siempre y cuando tengamos instalado Photoshop.
Filtros de "mejora"
Es importante dedicar unas palabras a los filtros desentramar (noise>despeckle) y
desenfocar (Blur) en todas sus modalidades. Ya que las pginas editadas tienen una
trama, es lgico acudir al filtro desentramar para que arregle ese pequeo problema, sin
embargo despus de muchas pruebas y contrastar opiniones est muy claro el asunto,
como dicen en algunos foros guiris "Blur is evil". Puede que en algunas ocasiones muy
puntuales alguna de estas herramientas, especialmente smart blur puedan ser de ayuda,
pero se deben utilizar con cuidado y a la menor duda desecharlos, adems de que
consumen mucho procesador. Tambin es importante recalcar que no es muy buena idea
aplicar el filtro para aumentar la saturacin, los filtros de niveles ya lo hacen de alguna
manera, y es una manera fcil de perjudicar la pgina a la hora de guardar jpg, cuanto
ms saturado est, mas informacin necesitar.
Niveles
Es aqu donde el programa echa el resto en capacidad de mejora de una imagen. Hay
una regla principal: NADA DE AUTOLEVELS. El cuadro de dilogo niveles image >
adjustments > levels (Ctrl+L) permite corregir la gama tonal y el equilibrio de color de
una imagen ajustando la intensidad de las sombras, los medios tonos y las luces de una
imagen, permite modificar la imagen en general (RGB), o cada canal de color por
separado (Rojo, Verde, Azul). El histograma sirve como gua visual para ajustar la
tonalidad.
En un comic de papel normal, la imagen aunque sea buena se puede mejorar aplicndole
unos ajustes de niveles en un solo paso. Vamos a ver como trabajan los niveles sobre un
ejemplo:
Imagen Original
Modificada
En el canal RGB llevamos la flecha de la izquierda hacia la derecha (1) esto acerca los
tonos oscuros al negro, no lo llega a alcanzar para no forzar los tonos. La flecha de en
medio (2) la llevo ligeramente a la izquierda, esto aclara los tonos medios, que se han
oscurecido en el paso (1). La flecha de la derecha (3) la llevo ligeramente a la izquierda,
esto quita textura del papel, pero debe hacerse con cuidado, puedes quitar detalles del
dibujo. Por ltimo en el canal Azul llevo la flecha de la derecha (4) hacia la izquierda
para quitar un ligero tono amarillento tpico de ese papel.
Vamos a ver un ejemplo de un comic antiguo amarilleado por el tiempo. El proceso
sera el mismo, slo que habra que tratar un poco ms el canal azul
Original
primero de todo es planificar bien el trabajo con antelacin: escanear una pgina de
ejemplo para comprobar la resolucin y si la imagen necesita mejorar la tonalidad, Los
comic impresos en buenos papeles no suelen necesitar mucha correccin tonal. Un
consejo para probar valores de correccin: puedes duplicar la capa (En la pestaa
Layers pinchas en la capa y arrastras al botn create new layer.) aplicar valores y as
comprobar fcilmente las diferencias haciendo clic en el ojo de la capa. Como mtodo
personalmente prefiero escanear, corregir inclinacin, bajar resolucin, aplicar mascara
de enfoque y guardar imgenes en formato TIFF, con las imgenes guardadas escojo los
valores de correccin de niveles y curvas y aplico una accin a todo el directorio que
corrige niveles y guarda JPG calidad 7-8 dependiendo del comic. Este mtodo permite
comprobar todo el trabajo de una vez y corregirlo fcilmente sin tener que escanear de
nuevo.
Accin de ejemplo
Para crear una accin capturamos una imagen, nos vamos a window>actions (F9) para
que nos aparezca la pestaa de acciones le damos a la flechita (1) y a new set para crear
una carpeta con las acciones que vamos a utilizar con el nombre comic.
Le damos al botn create new action (2) y automticamente se queda activado el botn
de grabar, lo que hagamos a continuacin formar parte de la accin. Una vez rotada la
imagen, le bajamos la resolucin, la recortamos con la herramienta crop, le aplicamos el
filtro unsharp mask y la grabamos como Tiff. le damos al botn stop de la pestaa de
acciones, para parar la grabacin, y a continuacin sealamos aquellos pasos de la
accin (3) cuyos valores cambian con cada imagen, es decir: rotar, recortar y guardar,
cuando la accin se reproduzca en una imagen, nos preguntar los valores, en el caso de
crop nos aparecer el tamao de marco de la accin grabada, esto est muy bien, porque
as todas las paginas de un comic tendrn el mismo tamao, si queremos, para guardar,
nos preguntar el nombre del fichero. Si el comic no necesita correccin tonal, podemos
guardar en jpg tal cual en este paso y no continuar, pero si al comic le viene bien un
lavado de cara guardamos en tiff todo el comic, abrimos una pgina de ejemplo y le
aplicamos las herramientas de correccin tonal grabndolas en una accin. Una vez
hayamos creado todo un set de acciones y tengamos previamente guardado en una
carpeta el comic en cuestin, nos vamos a File>automate>batch donde le decimos la
accin que debe ejecutar en la carpeta seleccionada, la accin aplicar los ajustes en
todo el directorio de imgenes grabndolas en el formato que hayamos escogido
previamente en la accin.
05.Formatos de grabacin
Entendiendo que vamos a grabar las imgenes para que se puedan ver con el Comic
Display Reader hay tres formatos en los que se puede grabar una imagen: JPG, GIF y
PNG. Para imgenes en color el JPG es el adecuado. El formato PNG y GIF son
adecuados para imgenes en blanco y negro. Para escanear comics en blanco y negro es
recomendable escanear en escala de grises, 256 bit de grises, nunca imagen en B/N de 1
bit de color. Corregimos niveles de la misma manera que lo hacemos como una imagen
en color, procurando no contrastar mucho la imagen para que los bordes no se queden
pixelados y para grabar podemos hacerlo de dos maneras: En Photoshop File > Save for
Una vez que tenemos cargada la seleccin aplicamos niveles (Ctrl+L) arrastrando la
flecha de la derecha hacia la izquierda hasta eliminar por completo el gris de fondo
controlando tambin los tonos de la imagen para tratar de ajustar lo mejor posible el
resultado.