Sie sind auf Seite 1von 15

http://technet.microsoft.com/es-es/library/dd871140.

aspx

Introduccin a Administracin de digitalizacin


Se aplica a: Windows Server 2008 R2 Puede usar Administracin de digitalizacin para administrar los recursos de digitalizacin del dominio desde una ubicacin central. Con Administracin de digitalizacin, puede automatizar el flujo de trabajo de un documento creando procesos de digitalizacin, que son un conjunto de reglas que especifican el proceso de digitalizacin y la entrega de documentos en la red. Adems, puede supervisar los escneres de su red y registrar todos los eventos relacionados con la digitalizacin. Puede usar el complemento Administracin de digitalizacin para supervisar escneres, configurar servidores de digitalizacin y crear procesos de digitalizacin. Despus de instalar los componentes necesarios para Administracin de digitalizacin en un equipo que ejecuta Windows Server 2008 R2, puede hacer lo siguiente: Especificar la configuracin de digitalizacin y supervisar los escneres habilitados para WSD (Web Services on Devices). Instalar y configurar los servidores de digitalizacin usados para comunicarse con escneres habilitados para WSD. Crear procesos de digitalizacin. Estos procesos especifican los permisos de usuario, la configuracin de digitalizacin de documentos y la entrega de documentos digitalizados en la red. Configurar el registro para controlar el uso de los recursos y los eventos de digitalizacin.

Componentes de Administracin de digitalizacin


Administracin de digitalizacin incluye los siguientes componentes. Todos los componentes se instalan en un equipo que ejecuta Windows Server 2008 R2. Tambin debe usar los exploradores habilitados para WSD para aprovechar las ventajas de Administracin de digitalizacin. No se admiten escneres TCP/IP. Rol Servicios de impresin y documentos. Con el Asistente para agregar roles, primero se instala el rol Servicios de impresin y documentos mediante el Administrador del servidor. El rol Servicios de impresin y documentos incluye cuatro servicios de rol; tres son necesarios para administrar los recursos de impresin de la red y uno es necesario para administrar los recursos de digitalizacin de la red. Servicio de rol Servidor de digitalizacin distribuida . A continuacin, instale el servicio de rol Servidor de digitalizacin distribuida mediante el Asistente para agregar servicios de rol. Servidor de digitalizacin. Despus de instalar el servicio de rol Servidor de digitalizacin distribuida, puede usar el Asistente para configurar el servidor de digitalizacin ms adelante. Los servidores de digitalizacin se usan para ejecutar procesos de digitalizacin, que son reglas que definen la configuracin de digitalizacin y la entrega de documentos digitalizados en su red. Complemento Administracin de digitalizacin. Administracin de digitalizacin es el complemento de Microsoft Management Console (MMC) que se instala con el servicio de rol Servidor de digitalizacin distribuida. Este complemento ofrece un punto de administracin central para administrar escneres habilitados para WSD, servidores de digitalizacin y procesos de digitalizacin para usuarios y grupos. El complemento Administracin de digitalizacin tambin se instala de forma predeterminada en los equipos que ejecutan Windows 7 Ultimate y Windows 7 Enterprise para poder administrar los recursos de digitalizacin de forma remota.

http://technet.microsoft.com/es-es/library/dd871140.aspx

Flujo de trabajo de documentos de Administracin de digitalizacin


A continuacin, se describen los pasos del proceso que ocurre cuando un documento se digitaliza y se enva a la red. Se da por supuesto que ya hay un servidor de digitalizacin instalado y configurado, y que hay un escner "empresarial" habilitado para WSD en la red. 1. 2. 3. 4. 5. Con el complemento Administracin de digitalizacin, se seleccionan uno o ms escneres para administrar. Con el complemento Administracin de digitalizacin, se crean procesos de digitalizacin para usuarios y grupos. Los procesos de digitalizacin se guardan automticamente en los Servicios de dominio de Active Directory (AD DS). El usuario inicia sesin en un escner y se autentica. Desde AD DS, se cargan los procesos de digitalizacin creados para que los use el usuario y se muestran en el panel frontal del escner. 6. El usuario selecciona el proceso de digitalizacin deseado e inicia la digitalizacin del documento. 7. La informacin del documento digitalizado y del proceso de digitalizacin seleccionado se envan al servidor de digitalizacin. 8. Los servidores de digitalizacin ejecutan el proceso de digitalizacin seleccionado por el usuario. El documento digitalizado puede ser enviado a una carpeta de red, a un sitio web de Windows SharePoint Services, a destinatarios de correo electrnico o a cualquier combinacin de stos. 9. El servidor de digitalizacin registra los resultados de la digitalizacin y enva una notificacin al usuario en el panel frontal del escner. 10. Si la digitalizacin procesa la entrega por correo electrnico de un documento, se notifica al usuario en un correo electrnico que el documento fue entregado.

Descripcin de los procesos de digitalizacin


Se aplica a: Windows Server 2008 R2 Un proceso de digitalizacin es una regla o conjunto de instrucciones que definen el modo en que se digitaliza un documento, dnde y a quin se le entrega en la red y qu usuarios o grupos pueden aplicar la regla a sus documentos digitalizados. Bsicamente, automatiza el flujo de trabajo del documento. Los procesos de digitalizacin los selecciona el usuario en el panel frontal de un escner que sea compatible con WSD (Web Services on Devices) en el momento en que se digitaliza el documento. A continuacin, se ejecutan en el servidor de digitalizacin y los resultados se muestran en el escner. Procesamiento del documento digitalizado Un proceso de digitalizacin especifica el modo en que se digitaliza un documento. Se puede configurar la resolucin, el formato de color y el tipo de archivo. Esta configuracin se define como parte de las reglas del proceso de digitalizacin. Adems, se puede validar para tener la seguridad de que es compatible con el escner asociado al proceso de digitalizacin en cuestin. El usuario puede invalidar la configuracin de digitalizacin en el escner si el proceso de digitalizacin se ha definido como tal. Entrega del documento digitalizado El proceso de digitalizacin puede especificar el lugar al que se envan las imgenes del documento digitalizado: a una carpeta de red compartida, a un sitio web de Windows SharePoint, a destinatario de correo electrnico o una combinacin de stos. Comunicaciones con Active Directory La informacin del proceso de digitalizacin se almacena en los Servicios de dominio de Active Directory (AD DS). Cuando se crea un nuevo proceso de digitalizacin mediante el Asistente para agregar proceso de digitalizacin o se modifica un proceso de digitalizacin ya existente mediante el complemento Administracin de digitalizaciones, los datos se guardan en AD DS.

http://technet.microsoft.com/es-es/library/dd871140.aspx
Cuando un usuario inicia la sesin en un escner habilitado para WSD y se autentica, los procesos de digitalizacin permitidos creados para ese usuario se recuperan de AD DS y se muestran en el panel frontal del escner. Consideraciones de seguridad Los procesos de digitalizacin enviados desde escneres se pueden ejecutar en un servidor de digitalizacin que funcione en modo autenticado o no autenticado. En modo autenticado, se usa un certificado de autenticacin de servidor para comunicar con escneres que emplean el protocolo de Capa de sockets seguros (SSL) (conexin HTTPS) para cifrar el trfico de red. En modo no autenticado, no se usan certificados y el servidor de digitalizacin acepta procesos de digitalizacin no autenticados de todos los escneres. Si un equipo servidor de digitalizacin experimenta errores cuando se estaba ejecutando en modo no autenticado y estaba ejecutando procesos de digitalizacin de escneres no autenticados, habr procesos de digitalizacin pendientes de que el servidor de digitalizacin los ejecute al reinicio. Si reinicia el servidor de digitalizacin y luego lo configura para ejecutarse en modo autenticado mediante el Asistente para la configuracin del servidor de digitalizacin, dicho servidor seguir ejecutando procesos de digitalizacin no autenticados hasta que la cola de digitalizacin se vace.

Descripcin de los escneres de servicios web


Se aplica a: Windows Server 2008 R2 Los escneres se usan para crear imgenes de documentos. Un escner puede ser un dispositivo independiente conectado en red o una funcin de escner de una copiadora o impresora multifuncin conectada en red. Para Administracin de digitalizacin, los escneres deben admitir como mnimo WSD (Web Services on Devices), incluyendo DPWS (Devices Profile for Web Services). No admite escneres de red basados en TCP/IP. Cuando los usuarios colocan sus documentos en un escner, primero se autentican en el escner iniciando la sesin mediante una interfaz de lector de tarjetas o de teclado. Los procesos de digitalizacin creados anteriormente para los usuarios por un administrador se recuperan de Servicios de dominio de Active Directory (AD DS) y se visualizan en el panel frontal del escner. Los usuarios seleccionan entonces el proceso de digitalizacin deseado y presionan el botn Digitalizar. Las imgenes de los documentos digitalizados se envan a un servidor de digitalizacin para su procesamiento, almacenamiento en red o entrega por correo electrnico. El escner enva tambin la informacin del proceso de digitalizacin y la informacin de estado del dispositivo al servidor de digitalizacin. Los usuarios reciben informacin en el panel frontal del escner sobre si el servidor de digitalizacin ha recibido el documento digitalizado y ejecutado el proceso de digitalizacin. Un ejemplo de proceso

http://technet.microsoft.com/es-es/library/dd871140.aspx
de digitalizacin sera: digitalizacin con una resolucin de 300 ppp, publicacin de los documentos en el sitio web del departamento y envo de los documentos a los destinatarios de correo electrnico seleccionados.

Requisitos de escner de empresa


Administracin de digitalizacin puede supervisar y visualizar la configuracin y las propiedades de escneres compatibles con WSD (un ejemplo sera el modelo Epson Artisan 800). Para poder utilizar los procesos de digitalizacin y sacar el mximo provecho de Administracin de digitalizacin, los escneres compatibles con WSD deben admitir tambin la siguiente funcionalidad adicional de nivel de empresa.

Compatibilidad con el protocolo de servicios web Adems de ser compatibles con WSD, incluyendo DPWS, los escneres deben admitir los siguientes protocolos de servicios web: El lado de host del protocolo EWS (Enterprise Scan Web Service) de WSD. El lado de cliente del protocolo RPWS (Repository Processing Web Service) de WSD.

Comunicaciones de Active Directory Los escneres deben admitir las siguientes comunicaciones con AD DS: Consulta y recuperacin de un objeto de usuario de AD DS. Recuperacin de credenciales de usuario (por ejemplo, de un lector de tarjetas conectado al escner) y su envo a AD DS.

Seguridad de certificados Los escneres deben proporcionar las siguientes caractersticas de seguridad: Capacidad de administrar y validar certificados de usuario y servidor de digitalizacin. Capacidad de establecer una conexin HTTPS con un servidor de digitalizacin.

Cumplimiento de IPsec Los escneres deben ser compatibles con y estar configurados para la seguridad de protocolo de Internet (IPsec) para que puedan registrarse los eventos de servicios web. IPSec no permite a los escneres que no son compatibles con IPsec enviar datos a un servidor de digitalizacin que se encuentre en un dominio con IPsec habilitada. Interfaz de usuario El escner debe proporcionar una interfaz para permitir las siguientes acciones del usuario: Seleccionar en una lista los procesos de digitalizacin recuperados de AD DS que el usuario est autorizado a usar. Proporcionar una lista de direcciones de correo electrnico si el proceso de digitalizacin incluye compatibilidad con correo electrnico.

http://technet.microsoft.com/es-es/library/dd871140.aspx

Instalar y configurar un servidor de digitalizacin


Se aplica a: Windows Server 2008 R2 Los servidores de digitalizacin se usan para la comunicacin con escneres compatibles con WSD (Web Services on Devices), ejecutar procesos de digitalizacin, enrutar documentos digitalizados y registrar eventos relacionados con la digitalizacin. En un equipo con Windows Server 2008 R2, primero debe instalar el rol Servicios de impresin y documentos y, a continuacin, el servicio de rol Servidor de digitalizacin distribuida en Administrador del servidor. El servicio de rol Servidor de digitalizacin distribuida instala tambin el complemento Administracin de digitalizacin. Despus de instalar un servidor de digitalizacin, puede usar el Asistente para configurar el servidor de digitalizacin para modificar la configuracin existente del servidor. Para instalar y configurar un servidor de digitalizacin 1. 2. Abra Administrador del servidor. En el panel de la izquierda, haga clic en Roles y realice lo siguiente: a. Si el rol Servicios de impresin y documentos no est instalado, en el panel de la derecha, haga clic en Agregar roles. Siga las instrucciones del Asistente para agregar roles para especificar la cuenta de servicio del usuario del dominio, la carpeta temporal local, el servidor de correo SMTP para el envo de los documentos digitalizados por correo electrnico, el certificado de autenticacin del servidor y los permisos de seguridad de usuarios y grupos. b. Si el rol Servicios de impresin y documentos ya est instalado, en el panel de la izquierda, haga clic en Roles y, a continuacin, en Servicios de impresin y documentos. Siga las instrucciones del Asistente para agregar roles para especificar la cuenta de servicio del usuario del dominio, la carpeta temporal local, el servidor de correo SMTP para el envo de los documentos digitalizados por correo electrnico, el certificado de autenticacin del servidor y los permisos de seguridad de usuarios y grupos. Consideraciones adicionales Para abrir Administrador del servidor, haga clic en Inicio, seleccione Herramientas administrativas y haga clic en Administrador del servidor. Tambin puede realizar esta tarea mediante Windows PowerShell. Para obtener ms informacin acerca del uso de Windows PowerShell, vea http://go.microsoft.com/fwlink/?LinkID=135119 (puede estar en ingls). Puede realizar esta tarea tambin en el smbolo del sistema, haciendo clic en Inicio, Ejecutar y escribiendo lo siguiente para agregar o quitar el servicio de rol: ServerManagerCmd.exe install Print-Scan-Server ServerManagerCmd.exe remove Print-Scan-Server La cuenta del servicio se crea con ms permisos de los que son necesarios para ejecutar procesos de digitalizacin. Los permisos de escritura y listado son necesarios para ejecutar procesos de digitalizacin. El permiso de lectura es necesario para leer los procesos de digitalizacin almacenados en Servicios de dominio de Active Directory. Debera considerar eliminar los permisos que no sean necesarios de la cuenta del servicio. Debera seleccionar un certificado emitido por una entidad de certificacin (CA) de confianza para los clientes que se conectan al servidor de digitalizacin. El nombre de sujeto del certificado debe coincidir con el nombre de dominio completo (FQDN) del servidor.

http://technet.microsoft.com/es-es/library/dd871140.aspx

http://technet.microsoft.com/es-es/library/dd871140.aspx
Procesos de Digitalizacin
La necesidad de procesar, almacenar, distribuir y consultar los documentos de una manera rpida y confiable con el fin de garantizar la calidad de los procesos dentro de las organizaciones, hace que la digitalizacin se vuelva cada vez ms importante. Algunos de los aspectos ms relevantes en cuanto a la digitalizacin lo constituyen el horro generado en: Gastos de Almacenaje. Mltiples copias y mltiples archivos. Depuracin de documentos. Localizacin. Manipulacin. Bsqueda de documentos fsicos. Retraso en firmas y autorizaciones. Extravo de documentos. Exceso de fotocopias. Archivos duplicados. Falta de seguridad y confiabilidad. Humedad, polvo, degradacin, mal manejo. Confusin y prdida de documentos.

Por qu digitalizar? La gestin de documentos es un tema crtico en una organizacin, la localizacin de estos, su archivo, el manejo de la informacin que contiene para la toma de decisiones, etc., requieren de una solucin que permita estructurar la informacin con documentos de diferentes formatos colocndolos en una sola base de datos documental o en un solo repositorio virtual, de manera que se pueda recurrir a su contenido fcil y oportunamente. Existen adems, costos ocultos asociados con el almacenamiento (Bodegaje), medios electrnicos dispersos (Varios archivos, varios equipos), y la distribucin tarda por la dificultad de su localizacin. Servicio de Digitalizacin de documentos
Outsourcing personal, hardware y software. Proveemos el servicio de digitalizacin de sus documentos tanto en la modalidad In-House como Out-House, en el cual nosotros nos hacemos cargo del personal, hardware y software necesario para realizar la tarea de digitalizacin, y proveemos el entrenamiento para que su personal pueda acceder a las bases de datos generadas.

http://technet.microsoft.com/es-es/library/dd871140.aspx
Work Flow(FLUJO DE TRABAJO)
Es una herramienta que facilita la automatizacin de los flujos de trabajo entre procesos, adems permite integrar los procesos de la empresa, la finalidad de instalar un sistema para administrar el flujo de documentos consiste en: Reflejar y automatizar la empresa en un sistema de informacin Establecer los mecanismos de control y seguimiento de los procedimientos organizativos Independizar el mtodo y flujo de trabajo de las personas que lo ejecutan Facilitar la movilidad del personal Soportar procesos de reingeniera de negocio

Agilizar el proceso de intercambio de informacin y la toma de decisiones de una organizacin, empresa o institucin

Organizacin de archivos:
Nuestra experiencia aplicada en el proceso de Organizacin Fsica de archivos le garantizar un resultado adecuado a las necesidades de su organizacin, cumpliendo los requerimientos administrativos, tcnicos y legales. Desarrollando Tablas de retencin como instrumento de trabajo archivstico para determinar las etapas y el tratamiento de los documentos desde su creacin hasta su eliminacin o conservacin y aplicando metodologas enfocadas a procesos de calidad, el servicio de Organizacin de Archivos que brinda nuestra empresa le garantizar un ciclo continuo de administracin de archivo exitoso y eficaz. Unificacin de criterios para todas las dependencias referentes a la: clasificacin, ordenacin y conservacin de la documentacin. Para ello se definen polticas en cuanto a: Conformacin de grupos de documentos. Seleccin documental Organizacin fsica del archivo Traslado documental

Planilla de remisin de los documentos.

Gestin documental electrnica:


Segn el Archivo General de la Nacin se entiende como Gestin Documental: "...Conjunto de actividades administrativas y tcnicas tendientes a la planificacin, manejo y organizacin de la documentacin producida y recibidas por las entidades desde su origen hasta su destino final con el objeto de facilitar su utilizacin y conservacin..." DOCUDIGITAL incorpora tcnicas y tecnologas que permiten administrar los documentos, su conservacin y recuperacin aplicando los principios de racionalizacin y economa, con el uso de herramientas (software) que facilite esta administracin.

Sistemas de captacin inteligente:


Sistemas de informacin que permiten capturar datos a partir de imgenes digitalizadas utilizando la tecnologa de OCR (Optical Character Recognition), ICR (Intelligent Character Recognition), BCR (Bar Code Recognition), OMR (Optical Mark Recognition) y diferentes mdulos de integracin con sistemas de informacin. Esta utilidad le permite integrar los sistemas de gestin documental a los sistemas de informacin de su empresa sin necesidad de mayores cambios en estos.

Debida diligencia electrnica:

http://technet.microsoft.com/es-es/library/dd871140.aspx
Nuestro Data Room es el equivalente electrnico de una sala fsica para la recogida de documentos, informaciones y contenidos multimedia. La documentacin es completamente consultable desde cualquier lugar del mundo 24 horas al da, 7 das a la semana, de manera remota, por medio de autenticacin, disponiendo de una conexin a Internet en banda ancha..

Backup remoto de informacin:


Existen tres caractersticas importantes en un sistema de Backup: rapidez, seguridad y disponibilidad total para recuperar los datos. El Backup Remoto se encarga de llevar estas tres caractersticas a la realidad en las copias que se hacen a distancia. El sistema es un software que se instala en el ordenador del cliente y que permite realizar tareas de copias de seguridad en nuestros servidores de forma peridica con total confidencialidad.

Beneficios
Altsimo ahorro en costos - Tiempo - Bodegaje - Papelera - Tintas - Energa Informacin al instante y en cualquier parte del mundo Blindaje de documentos contra robo, incendios, inundaciones, etc. Elimina la perdida de informacin por descuido Mayor eficiencia de flujo de documentos dentro de la organizacin Bitcora histrica de accesos a documentos Opcin de proveer informacin a terceros - proveedores, clientes, etc. Depuracin automtica de archivos

http://technet.microsoft.com/es-es/library/dd871140.aspx

Reconocimiento ptico de caracteres El Reconocimiento ptico de Caracteres (ROC), o generalmente como reconocimiento de caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto, para luego almac Problemas

con el

Reconocimiento ptico de Caracteres (ROC)


El proceso bsico que se lleva a cabo en el Reconocimiento ptico de Caracteres es convertir el texto que aparece en una imagen en un archivo de texto que podr ser editado y utilizado como tal por cualquier otro programa o aplicacin que lo necesite. Partiendo de una imagen perfecta, es decir, una imagen con slo dos niveles de gris, el reconocimiento de estos caracteres se realizar bsicamente comparndolos con unos patrones o plantillas que contienen todos los posibles caracteres. Ahora bien, las imgenes reales no son perfectas, por lo tanto el Reconocimiento ptico de Caracteres se encuentra con varios problemas: El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original. La resolucin de estos dispositivos puede introducir ruido en la imagen, afectando los pxeles que han de ser procesados. La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento. La conexin de dos o ms caracteres por pxeles comunes tambin puede producir errores.

[editar]Esquema

bsico de un algoritmo de Reconocimiento ptico de Caracteres

Todos los algoritmos de Reconocimiento ptico de Caracteres tienen la finalidad de poder diferenciar un texto de una imagen cualquiera. Para hacerlo se basan en 4 etapas: Binarizacin, Fragmentacin o segmentacin de la imagen, Adelgazamiento de los componentes y Comparacin con patrones.

http://technet.microsoft.com/es-es/library/dd871140.aspx
[editar]Binarizacin La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el nmero de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirn en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y smbolos que contiene la imagen. A partir de aqu podemos aislar las partes de la imagen que contienen texto (ms transiciones entre blanco y negro). [editar]Fragmentacin

o segmentacin de la imagen

Este es el proceso ms costoso y necesario para el posterior reconocimiento de caracteres. La segmentacin de una imagen implica la deteccin mediante procedimientos de etiquetado determinista o estocstico de los contornos o regiones de la imagen, basndose en la informacin de intensidad o informacin espacial. Permite la descomposicin de un texto en diferentes entidades lgicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento. No existe un mtodo genrico para llevar a cabo esta segmentacin de la imagen que sea lo suficientemente eficaz para el anlisis de un texto. Aunque, las tcnicas ms utilizadas son variaciones de los mtodos basados en proyecciones lineales. Una de las tcnicas ms clsicas y simples para imgenes de niveles de grises consiste en la determinacin de los modos o agrupamientos (clusters) a partir del histograma, de tal forma que permitan una clasificacin o umbralizacin de los pixeles en regiones homogneas. [editar]Adelgazamiento

de las componentes

Una vez aisladas las componentes conexas de la imagen, se les tendr que aplicar un proceso de adelgazamiento para cada una de ellas. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipologa. La eliminacin de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen contine teniendo las mismas proporciones que la original y as conseguir que no quede deforme. Se tiene que hacer un barrido en paralelo, es decir, sealar los pxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificacin y reconocimiento, simplificando la forma de las componentes. [editar]Comparacin

con patrones

En esta etapa se comparan los caracteres obtenidos anteriormente con unos tericos (patrones) almacenados en una base de datos. El buen funcionamiento del ROC se basa en gran medida a una buena definicin de esta etapa. Existen diferentes mtodos para llevar a cabo la comparacin. Uno de ellos es elMtodo de Proyeccin, en el cual se obtienen proyecciones verticales y horizontales del carcter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la mxima coincidencia. Existen otros mtodos como por ejemplo: Mtodos geomtricos o estadsticos, Mtodos estructurales, Mtodos Neuromimticos, Mtodos Markovianos oMtodos de Zadeh. [editar]Aplicaciones Desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC.

http://technet.microsoft.com/es-es/library/dd871140.aspx
[editar]Reconocimiento

de texto manuscrito

Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo. En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lexico- este puede ir aumentndose segn necesidades. Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin. [editar]Reconocimiento

de matrculas

Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrcula de un vehculo con condiciones de iluminacin, perspectiva y entorno variables. En la etapa de segmentacin, se buscan texturas similares a la de una matrcula y se asla el rea rectangular que forma la matrcula. Finalmente, se aplica un proceso de clasificacin mltiple sobre el conjunto de pxeles pertenecientes a la matrcula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrcula. Si aparece algn error, es corregido. [editar]Indexacin

en bases de datos

Con el gran aumento de informacin publicada que ha tenido lugar en los ltimos aos, cada vez son ms los mtodos que se utilizan para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imgenes. Una de las formas ms corrientes de buscar imgenes es a partir de metadato introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imgenes mediante el texto que aparecen en ellas, como el buscador DIRS(Document Image Retrieval System) que, mediante un algoritmo de Reconocimiento ptico de Caracteres, extrae el texto que aparece en la imagen y lo utiliza como metadato que podr ser utilizado en las bsquedas. Esta tecnologa proporciona una posibilidad en la bsqueda de imgenes y demuestra que el ROC an puede dar mucho de s. [editar]Reconocimiento

de datos estructurados con ROC Zonal

Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nminas, albaranes, plizas, justificantes bancarios, etc.), catalogando automticamente los documentos con los metadatos obtenidos y archivndolos en formato digital de forma indexada para facilitar su posterior bsqueda. Tiene el inconveniente de que es necesario disear previamente las plantillas, pero con una buena configuracin se ahorra mucho tiempo en el proceso de digitalizacin.

enarlos en forma de datos, asi podremos interactuar con estos mediante un programa de edicin de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma espaol, utilizando el acrnico a partir del ingls OCR. En los ltimos aos la digitalizacin de la informacin (textos, imgenes, sonido, etc ) ha devenido un punto de inters para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de informacin escrita, tipogrfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introduccin de caracteres

http://technet.microsoft.com/es-es/library/dd871140.aspx

evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios. Problemas con el Reconocimiento ptico de Caracteres (ROC) El proceso bsico que se lleva a cabo en el Reconocimiento ptico de Caracteres es convertir el texto que aparece en una imagen en un archivo de texto que podr ser editado y utilizado como tal por cualquier otro programa o aplicacin que lo necesite. Partiendo de una imagen perfecta, es decir, una imagen con slo dos niveles de gris, el reconocimiento de estos caracteres se realizar bsicamente comparndolos con unos patrones o plantillas que contienen todos los posibles caracteres. Ahora bien, las imgenes reales no son perfectas, por lo tanto el Reconocimiento ptico de Caracteres se encuentra con varios problemas: El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original. La resolucin de estos dispositivos puede introducir ruido en la imagen, afectando los pxeles que han de ser procesados. La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento. La conexin de dos o ms caracteres por pxeles comunes tambin puede producir errores. Esquema bsico de un algoritmo de Reconocimiento ptico de Caracteres Todos los algoritmos de Reconocimiento ptico de Caracteres tienen la finalidad de poder diferenciar un texto de una imagen cualquiera. Para hacerlo se basan en 4 etapas: Binarizacin, Fragmentacin o segmentacin de la imagen, Adelgazamiento de los componentes y Comparacin con patrones. Binarizacin La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el nmero de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirn en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y smbolos que contiene la imagen. A partir de aqu podemos aislar las partes de la imagen que contienen texto (ms transiciones entre blanco y negro). Fragmentacin o segmentacin de la imagen Este es el proceso ms costoso y necesario para el posterior reconocimiento de caracteres. La segmentacin de una imagen implica la deteccin mediante procedimientos de etiquetado determinista o estocstico de los contornos o regiones de la imagen, basndose en la informacin de intensidad o informacin espacial. Permite la descomposicin de un texto en diferentes entidades lgicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento. No existe un mtodo genrico para llevar a cabo esta segmentacin de la imagen que sea lo suficientemente eficaz para el anlisis de un texto. Aunque, las tcnicas ms utilizadas son variaciones de los mtodos basados en proyecciones lineales. Una de las tcnicas ms clsicas y simples para imgenes de niveles de grises consiste en la determinacin de los modos o agrupamientos (clusters) a partir del histograma, de tal forma que permitan una clasificacin o umbralizacin de los pixeles en regiones homogneas. Adelgazamiento de las componentes Una vez aisladas las componentes conexas de la imagen, se les tendr que aplicar un proceso de adelgazamiento para cada una de ellas. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipologa. La eliminacin de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen contine teniendo las mismas proporciones que la original y as conseguir que no quede deforme.

http://technet.microsoft.com/es-es/library/dd871140.aspx Se tiene que hacer un barrido en paralelo, es decir, sealar los pxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificacin y reconocimiento, simplificando la forma de las componentes. Comparacin con patrones En esta etapa se comparan los caracteres obtenidos anteriormente con unos tericos (patrones) almacenados en una base de datos. El buen funcionamiento del ROC se basa en gran medida a una buena definicin de esta etapa. Existen diferentes mtodos para llevar a cabo la comparacin. Uno de ellos es elMtodo de Proyeccin, en el cual se obtienen proyecciones verticales y horizontales del carcter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la mxima coincidencia. Existen otros mtodos como por ejemplo: Mtodos geomtricos o estadsticos, Mtodos estructurales, Mtodos Neuromimticos, Mtodos Markovianos oMtodos de Zadeh. [editar]Aplicaciones Desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC. Reconocimiento de texto manuscrito Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo. En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lexico- este puede ir aumentndose segn necesidades. Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin. Reconocimiento de matrculas Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrcula de un vehculo con condiciones de iluminacin, perspectiva y entorno variables. En la etapa de segmentacin, se buscan texturas similares a la de una matrcula y se asla el rea rectangular que forma la matrcula. Finalmente, se aplica un proceso de clasificacin mltiple sobre el conjunto de pxeles pertenecientes a la matrcula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrcula. Si aparece algn error, es corregido. Indexacin en bases de datos Con el gran aumento de informacin publicada que ha tenido lugar en los ltimos aos, cada vez son ms los mtodos que se utilizan para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imgenes. Una de las formas ms corrientes de buscar imgenes es a partir de metadato introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imgenes mediante el texto que aparecen en ellas, como el buscador DIRS(Document Image Retrieval System) que, mediante un algoritmo de Reconocimiento ptico de Caracteres, extrae el texto que aparece en la imagen y lo utiliza como metadato que podr ser utilizado en las bsquedas. Esta tecnologa proporciona una posibilidad en la bsqueda de imgenes y demuestra que el ROC an puede dar mucho de s.

http://technet.microsoft.com/es-es/library/dd871140.aspx Reconocimiento de datos estructurados con ROC Zonal Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nminas, albaranes, plizas, justificantes bancarios, etc.), catalogando automticamente los documentos con los metadatos obtenidos y archivndolos en formato digital de forma indexada para facilitar su posterior bsqueda. Tiene el inconveniente de que es necesario disear previamente las plantillas, pero con una buena configuracin se ahorra mucho tiempo en el proceso de digitalizacin.

Das könnte Ihnen auch gefallen