Beruflich Dokumente
Kultur Dokumente
DIGITALIZAR
DOCUMENTOS
DE ARQUIVO
4
DIGITALIZAÇÃO: CONCEITO
Primeiras linhas da seqüência binária do arquivo Versão em código binário da frase “como
de som de entrada do Windows XP, em formato digitalizar documentos de arquivo”, escrito no
“wav”. bloco de notas do Windows.
6
limites e os detalhes serão sempre muito bem definidos geometricamente. A
segunda imagem, contudo, sempre irá perdendo definição e os limites ficarão
cada vez mais tênues à medida que for aumentada para visualização de
detalhes.
No segundo caso, também, é possível perceber que a imagem é
composta por pequenos quadrados, sendo que seu tamanho e sua quantidade
podem variar conforme a qualidade da imagem.
Uma imagem digital vetorial como a da primeira figura é obtida a partir
de elementos geométricos como pontos, retas, curvas, elipses e polígonos, os
quais se mostrarão sempre perfeitos independentemente do grau de ampliação
da imagem. A imagem digital do tipo raster, ou rasterizada, por sua vez, como
no segundo caso, é constituída por vários pontos, chamados de pixels, que, na
verdade, não passam de quadradinhos de diferentes cores, porém de tamanho
fixo – conforme a qualidade desejada, previamente definida –, e que
preenchem todo o espaço ocupado pela imagem.
Exemplos de documentos digitais vetorialmente construídos são: textos
digitados em editores de texto, planilhas e bancos de dados; desenhos
animados feitos com a tecnologia flash; plantas desenhadas pelo Autocad e
textos e desenhos feitos com o software Corel Draw.
Exemplos de imagens do tipo raster são: fotografias digitais, imagens
digitalizadas e desenhos feitos com o aplicativo Paint do Windows.
Esses dois tipos de imagens apresentam diferenças substanciais quanto
à nitidez, tamanho do arquivo e possibilidades de uso, mas é importante que se
diga que uma imagem digitalizada será sempre do tipo raster. Isso significa
que um texto digitalizado será sempre, para o computador, uma imagem de um
texto, e não um texto propriamente dito, e é exatamente por isso que não é
possível realizar buscas de caracteres em uma imagem digitalizada, como
fazemos em um texto produzido no Word, por exemplo. Ou seja, o computador,
diferentemente do modo com que produz e interpreta imagens vetoriais, não
identifica letras e números numa imagem rasterizada de um texto, mas apenas
pixels que representam a imagem do documento, originalmente em papel.
Contudo, notaremos mais adiante que é possível obter, por meio de programas
especiais, mas sempre com alguma margem de erro, textos vetoriais de
imagens rasterizadas, tornando pesquisável o conteúdo textual da imagem de
um documento digitalizado.
7
UM BREVE HISTÓRICO
8
Era da Hell a fabricação dos
primeiros scanners que chegaram no
Brasil no início da década de 1980. Eram
os CP-340 “Jumbo”, utilizados para
confecção de fotolitos.
Chromagraph, modelo de 1965
Rudolf Hell faleceu em 2002, e sua empresa já havia sido adquirida pela
Siemens em 1981.
H. Philip Peterson, da Control Data Corporation, empresa fabricante do
computador CDC-3200, começou suas experiências com a digitalização de
cromos e negativos no final da década de 1950. Criou o TX2 Eye, ou
Charactron, um scanner de transparências, e das suas experiências com
digitalização sobreviveram ao tempo algumas versões impressas da sua “Mona
Lisa digital”, de 1964, obtidas com grande qualidade a partir de um negativo
35mm contendo a foto do famoso quadro de Da Vinci. Após 14 horas de
digitalização, o invento de Peterson produziu uma imagem de 1,50m X 1,20m
contendo 100.000 pixels e impressa em uma impressora de impacto de
caracteres prontos (não-matricial), comum à época.
O invento de Peterson não teve nenhum futuro comercial à época,
diferentemente de seu contemporâneo alemão. Porém, as versões impressas
de sua “Mona Lisa Digital”, hoje expostas no Museu do Computador em
Boston, são reconhecidas hoje como um dos primeiros exemplos da chamada
“Arte Ascii” (pronuncia-se “áski”), que utiliza caracteres para compor imagens.
9
O advento dos circuitos integrados, ou chips (que nasceram
condensando dezenas de transistores de forma interligada, aumentando
extraordinariamente a velocidade de processamento de dados), aliou-se, de um
lado, ao surgimento dos discos flexíveis de 8 polegadas (tornando-o um meio
de armazenagem de dados bem mais econômico e de maior portabilidade em
relação ao rolo de fita magnética dos computadores de grande porte), e, de
outro lado, ao desenvolvimento de softwares específicos para os computadores
de pequeno porte, trazendo, a partir dos anos 70, a possibilidade de sua
produção em série. Máquinas como o Altair 8800, lançado em 1974, e o Apple
II, de 1977, foram transformadas em sucessos absolutos de vendas, tornando
possível, e de forma progressiva a partir de então, a aquisição de
computadores – ou microcomputadores (como começavam a ser chamados) –,
até mesmo por pequenas empresas ou usuários domésticos de classe média.
10
Groups), criado em 1983 para fotografias, e o TIFF (Tagged Image File
Format), nascido em 1986 para aplicações voltadas a trabalhos gráficos que
não admitissem perdas de qualidade na compactação. E, como fortes aliados,
surgem os meios de armazenagem de dados de pequenas dimensões e de alta
capacidade para a época, como as fitas DLT (1984) e o CD-R (1988). Estavam
plenamente abertas as possibilidades de uso nas mais diversas áreas
institucionais, e dentre as quais o campo da gestão documental, que é o que
mais nos interessa.
A ampliação em ritmo acelerado das redes corporativas e da rede
mundial de computadores a partir dos anos de 1990 surgiu como
potencializadora das aplicações de digitalização, provocando, por conseguinte,
necessidades crescentes de compartilhamento de documentos. Por conta
disso, fabricantes como Microtek e Fujitsu passaram a oferecer, então,
scanners com alimentação automática e cada vez mais velozes, para darem
conta de demandas elevadas que surgiam para a digitalização de acervos
documentais de arquivos públicos e privados de grandes corporações.
Nos Estados Unidos apareceu, então, o conceito de Document Imaging
para caracterizar a tecnologia voltada à digitalização de documentos e ao
gerenciamento de um banco de imagens institucional. A expressão, embora
inadequada – pois a imagem do documento é apenas o produto de um
processo composto por um conjunto de procedimentos, dos quais a
digitalização é só um deles, como veremos – passou a representar uma
solução para o acúmulo ininterruptamente mais crescente de papéis nas
organizações, contrariando os futuristas dos anos 80 que acreditavam que o
documento eletrônico traria como uma de suas conseqüências um mundo
corporativo sem papel.
A década de 1990, por conta da força que o apelo da digitalização
possuía, testemunhou a ameaça da descontinuidade de programas de
microfilmagem em arquivos e outras instituições de custódia no mundo todo,
um equívoco devido essencialmente à incompreensão das 2 tecnologias, que
hoje sabemos que não são concorrentes, e muito menos excludentes entre si,
mas complementares no binômio preservação/ acesso.
Mas nos últimos anos a microfilmagem ganhou nova força, impulsionada
pelas soluções híbridas de microfilmagem eletrônica oferecidas inicialmente
pela Kodak, e que permitem, por meio de um único equipamento, digitalizar e
microfilmar a mesma imagem simultaneamente.
11
6 RAZÕES PARA DIGITALIZAR DOCUMENTOS
Ainda que a instituição que opte por digitalizar seus documentos não
disponha de uma rede corporativa que possibilite o compartilhamento de
informações por essa via, manter versões digitalizadas de documentos em
papel proporcionará seguramente um acesso bem mais rápido às imagens a
serem consultadas do que recorrer à localização do papel em pastas ou caixas.
Imaginemos uma situação em que não sabemos exatamente qual
documento atenderá à nossa necessidade por uma informação específica, pois
não temos muita informação sobre ele, ou mesmo uma outra situação em que
sabemos exatamente que documento pretendemos consultar, porém não
temos dados satisfatórios sobre ele para uma localização precisa. Isso
implicará, evidentemente, o levantamento de todos os prováveis papéis que,
conforme o nível de detalhamento das informações que tivermos sobre o objeto
que se pretende localizar, pode até resultar numa quantidade de documentos
que inviabilize uma localização num espaço de tempo que esteja nos limites da
razoabilidade
O tempo gasto para “cercar” a pesquisa, localizar as pastas ou caixas e
retirar os documentos será, com certeza, bem superior ao tempo gasto quando
a pesquisa é feita por meio de um sistema de banco de dados que retorne,
quase que instantaneamente no monitor, as imagens dos possíveis
documentos.
12
- Possibilidade de acesso remoto ao documento.
Dá-se essa situação para os casos em que, por diversas razões pode
não interessar a disponibilização, via Intranet ou Internet, de determinadas
imagens, seja por estarem protegidas por direito autoral, seja devido à alta
13
resolução que dificulta a sua publicação ou ainda, por se tratarem de
documentos administrativos, que interessem apenas a grupos específicos
dentro da própria instituição.
15
“Consideram-se arquivos, para os fins desta Lei, os
conjuntos de documentos produzidos e recebidos por órgãos
públicos, instituições de caráter público e entidades
privadas, em decorrência do exercício de atividades
específicas, bem como por pessoa física, qualquer que seja
o suporte da informação ou a natureza dos documentos.”
Detalhe da tabela de temporalidade de documentos do Tribunal Regional Eleitoral de São Paulo, em que se encontram
relacionadas as atividades e os documentos que compõem as séries documentais, além dos prazos de guarda.
19
DEFINIÇÃO DO UNIVERSO DOCUMENTAL A SER DIGITALIZADO
Preparação
23
- dobras e amassos necessitam ser desfeitos na medida do possível, e
Itens documentais em precário estado de conservação que corram o risco de
ser danificados durante a digitalização automática, em decorrência da “puxada”
do documento, devem ser mencionados na ficha de lote, indicando a
necessidade de digitalização manual;
- a intervenção no documento deve se dar apenas para um reparo físico,
não devendo ser feitas anotações, alterações, realces ou retoques, pois isso
pode ser caracterizado como adulteração do conteúdo, comprometendo a sua
confiabilidade.
- documentos constituídos de muitas folhas poderão ser separados por
uma folha em branco, caso o software de captura utilizado possua o recurso de
detecção automática de início e fim do documento.
Digitalização
24
de documentos cujas cores ou matizes de cinza, eventualmente presentes, não
sejam necessárias para compreensão do seu conteúdo informacional.
Porém, caso o documento possua gráficos coloridos ou fotografias, o
padrão JPEG deverá ser utilizado para geração de arquivos com extensão
JPG.
Os softwares de captura para aplicações em gerenciamento de imagens
normalmente trabalham com a possibilidade de agrupar em um único arquivo
PDF diversos arquivos de imagem produzidos com diferentes algoritmos de
compressão, como o ITU-G4, o JPEG , o GIF ou o TIFF com seu sistema
próprio de compactação, buscando otimizar a produção do documento digital.
O formato PDF, que hoje agrega até tecnologias multimídia, permitindo a
geração de arquivos que combinam texto, fotografias, música e vídeo, vem
sendo continuamente empregado para aplicações de gerenciamento de
imagens de documentos. Entretanto, nesse caso, normalmente o arquivo é
produzido por “exportação” a partir de um arquivo TIFF.
Para o caso da criação de um banco de imagens fotográficas – que
usualmente interessa a museus e centros de documentação ou de memória –,
ainda que sejam produzidos arquivos JPEG para circulação sob demanda na
rede ou publicação, é altamente recomendável a produção também de arquivos
com tecnologias de compressão que não impliquem perdas de qualidade da
imagem, devendo, neste caso, ser armazenadas em uma “mídia de
preservação”, como veremos adiante. O TIFF – ou o PDF gerado a partir dele –
novamente é a melhor opção.
25
SERVIÇO DE DIGITALIZAÇÃO DE DOCUMENTOS
PREPARAÇÃO
OBSERVAÇÕES: _________________________________________________________________________
REDIGITALIZAÇÃO
_________________________________________________________________________________________
_________________________________________________________________________________________
OBSERVAÇÕES: _________________________________________________________________________
26
O CQ é feito também para “limpeza” da imagem, objetivando remover
marcas provenientes de sujeira, dobras, grampos, clipes e furos.
Um operador responsável pelo CQ é capaz, com a prática, de aprovar
uma imagem por visualização bem rápida no monitor, podendo levar poucos
segundos a cada página, não sendo compensador, portanto, numa relação
custo/ benefício ,um CQ realizado por amostragem.
Indexação
27
Nesse sentido, as etapas da armazenagem e da recuperação são,
seguramente, as que melhor têm de ser pensadas, constituindo-se mesmo nas
mais vitais da aplicação.
Pois o problema do documento digital é que a sua fragilidade exige,
diferentemente do papel, o que pode se chamar de uma atitude consciente
para a sua preservação. E preservação digital é muito mais do que a mera
conservação do suporte, o que significa, em primeiro lugar, que não basta
garantir condições de guarda ideais para o meio físico que contém os dados
(disco óptico, disquete, cartão de memória, fita magnética) – o que por si só já
é um grande desafio. É necessário também assegurar que os dados estejam
em suportes que sejam comportados pelas unidades de leitura disponíveis ao
longo do tempo em que os documentos precisarem ser consultados.
O exemplo dos discos flexíveis de 5 ¼ polegadas permite uma
compreensão clara da situação: tais discos eram comuns nos anos 1980 e até
meados de 1990, mas se tornaram obsoletos com o advento dos disquetes de
3 ½ polegadas e dos CD’s. Contudo, não é raro encontrar disquetes de 5 ¼
em boas condições de guarda em instituições públicas ou privadas, sem que
existam equipamentos de leitura para acesso aos dados neles inseridos.
A solução, neste caso, é uma constante vigilância no sentido de que os
dados sejam regularmente migrados para um novo padrão universalmente
aceito, sempre quando o anterior estiver em franco processo de
descontinuidade.
Em segundo lugar, é necessário que, durante os seus prazos de guarda,
os dados estejam sempre em formatos de arquivo digital compatíveis com os
softwares de leitura disponíveis. Tais formatos, levando em consideração a
possibilidade de obsolescência destes, podem não ser aqueles em que foram
originalmente criados.
Novamente há que se promover, sempre que necessário, a conversão
dos dados para formatos compatíveis com os softwares disponíveis ao logo do
período em que os documentos precisarem ser preservados.
Por último, há a questão da necessidade de criar mecanismos de
segurança para que os dados não sejam intencionalmente alterados durante o
seu prazo de guarda, dada a possibilidade que o documento digital abre nesse
campo, pois tanto imagens como documentos textuais digitais podem
facilmente ser editados sem que evidenciem rastros de adulteração.
Assim, podemos concluir, por ora, que preservação digital é um conjunto
de cuidados e procedimentos que asseguram ao documento digital a sua
acessibilidade e a sua integridade ao longo do seu prazo de guarda, através
das seguintes estratégias:
28
- preservação física adequada do suporte;
- atualização tecnológica do suporte quando preciso;
- atualização tecnológica do formato digital dos dados quando preciso; e
- preservação da integridade dos dados.
Jacobino Bustamante
Chefe da Seção de Arquivo
Exemplo hipotético de mídia óptica devidamente identificada e validada para preservação de imagens digitalizadas
30
CONFERINDO VALOR JURÍDICO-PROBATÓRIO AO DOCUMENTO
DIGITALIZADO
34
- Scanners desktop:
- Scanners departamentais:
Modelo Fi4340-C da Fujitsu, digitaliza 40 páginas Scanner i280 da Kodak, que digitaliza
por minuto, frente e verso documentos longos e 50 páginas por minuto a 200
dpi, frente e verso.
35
- Scanners de produção:
Modelos DR-9080-C da Canon e Fi5900-C da Fujitsu , respectivamente, ambos capazes de digitalizar 100
páginas por minuto, frente e verso. Possuem alimentador automático com capacidade de 500 folhas.
36
ANEX0 2 - MEIOS DE ARMAZENAGEM PARA DOCUMENTOS DIGITAIS
37
armazenagem – tendem a ter uma durabilidade bem maior se fabricados com
compostos químicos que assegurem uma maior sobrevida dos dados.
É o que apontou um estudo, realizado em 1995 pelo norte-americano
National Media Laboratory, que, através de processos laboratoriais de
envelhecimento acelerado, concluiu que o meio magnético é o menos durável
como suporte para guarda de dados. Em primeiro lugar ficou o papel, seguido
do microfilme e, na terceira posição, o disco óptico.
Analisemos agora as possibilidades de uso para os diferentes tipos de
suportes pertencentes às famílias magnética, ótica e flash. Entre parênteses
será informada, para cada caso, a capacidade aproximada de imagens
possíveis de serem armazenadas.
Meios magnéticos
- Fita
38
- LTO (Linear Tape Open), desenvolvida pelo
consórcio HP-IBM-Seagate em 2000, encontra-se
disponível atualmente na versão LTO-4, com
capacidade de 800 gigabytes (16.000.000 de
imagens), com custo aproximado por unidade de
R$500,00.
- Disco rígido
39
partes móveis e componentes eletrônicos não é um meio de armazenagem
confiável do ponto de vista da durabilidade.
Ramac, o primeiro disco rígido, desenvolvido em 1956. Modelo de disco rígido de 160 gigabytes,
Tinha capacidade de armazenagem de 5 mb. comum nos computadores atualmente.
- Discos portáteis
- CD (Compact Disc)
41
- DVD (Digital Video Disc)
Dispositivos flash-ram
42
imunes a campos eletromagnéticos, possuírem alta estabilidade, baixíssimo
consumo de energia, além de serem ultra leves e totalmente silenciosos
quando em operação. São utilizados em geral para armazenagem provisória de
dados (transporte, transferência) apresentados na forma de pen drives, ou para
memória de aparelhos eletrônicos (celulares, câmeras fotográficas, mp3
players), com capacidades que variam de 500mb a 16gb.
A desvantagem fica por conta do fato de que após um tempo, que varia
conforme a quantidade de vezes em que é submetido a processos de
gravação, o dispositivo flash pode apresentar defeitos, decorrentes de sua
capacidade limitada de suportar ciclos de gravação.
A palavra flash se deve ao fato de que o processo de gravação ocorre
simultaneamente em múltiplos endereços de memória, em “relâmpagos”.
Embora haja uma diversidade de padrões no mercado, o fato de todos
possuírem a mesma interface de comunicação com o computador (USB) faz
com que o problema da compatibilidade seja minimizado.
Os modelos mais comuns em uso são:
43
ANEX0 3 – FORMATOS DE IMAGENS DIGITAIS
JPEG
44
Entretanto, é sempre importante lembrar que um arquivo jpeg é composto
apenas por uma única página, diferentemente dos formatos TIFF e PDF.
O formato JPEG foi normalizado pela ITU/T.81, publicada em 1992 e
pela ISO 10918-1, publicada em 1994. Acabou sendo, também, incorporado
por outros formatos que trabalham com imagens, como o TIFF e o PDF,
conforme veremos a seguir.
TIFF
45
TIFF sem compactação:
11 mb (1:1)
46
PDF
47
ANEXO 4: PORTARIA N° 68/2006 DO TRE/SP
48
Artigo 3º - Serão fases obrigatórias do Sistema de
Gerenciamento Eletrônico de Imagens de Documentos:
a) a preparação dos documentos;
b) a digitalização;
c) o controle de qualidade das imagens digitalizadas;
d) a indexação;
e) a gravação em mídia de armazenagem própria;
f) a validação da mídia e
g) a recuperação da imagem e sua impressão, quando
requeridas.
Artigo 4º - Para garantir a segurança das informações,
ficarão vedados:
I – a gravação de imagens eletrônicas de documentos para
fins de preservação em mídias de armazenagem magnéticas ou de outro
tipo que não ofereça segurança física contra edição ou apagamento
eletrônico de dados, intencional ou acidental;
II – o uso de formatos proprietários de arquivo digital,
devendo-se adotar formatos universais para produção das imagens
eletrônicas dos documentos;
III – a circulação interna, na Secretaria do Tribunal, das
mídias de armazenagem eletrônica contendo imagens de documentos
judiciais;
IV – a reprodução, para público externo, das mídias de
armazenagem eletrônica contendo imagens de documentos.
Artigo 5º - Deverá a Secretaria prover medidas para:
I – migrar dados de mídias de armazenagem eletrônica
obsoletas para outra mídia de armazenagem de uso universal consolidado;
II – migrar as imagens de documentos em formato digital
obsoleto para outro formato digital de uso universal consolidado;
III – manter em condições climáticas de guarda adequadas
os meios de armazenagem que contenham imagens eletrônicas de
documentos, a fim de assegurar sua durabilidade.
Parágrafo único: Farão parte integrante das imagens
eletrônicas dos documentos os seus dados de indexação correspondentes.
49
Artigo 6º - Ficarão autorizadas, para os fins de direito e a
expensas do requerente, a impressão em papel e a autenticação, por
servidor da Secretaria, da imagem eletrônica do documento existente na
mídia de armazenagem, desde que essa imagem tenha sido obtida em
conformidade com o disposto nesta Portaria.
Artigo 7º - Ficará vedado o descarte de documentos em
papel previstos como de guarda permanente, mesmo após digitalizados para
os fins indicados nesta Portaria.
Parágrafo único: Ficará autorizado o descarte dos
documentos em papel que não sejam de guarda permanente, aplicando-se à
imagem eletrônica, neste caso, a mesma temporalidade de guarda de seu
equivalente em papel.
Artigo 8º - Caberá à Diretoria-Geral a identificação dos
tipos documentais que terão suas imagens eletrônicas disponibilizadas para
consulta via Internet ou Intranet.
Artigo 9º - Caberá à Secretaria de Administração a
centralização dos serviços regulamentados por esta Portaria, submetendo à
Diretoria-Geral as questões relevantes.
Artigo 10 - Para aplicação desta regulamentação serão
seguidas as rotinas descritas no Manual de Procedimentos anexo, que
integra esta Portaria.
Artigo 11 – Esta Portaria entrará em vigor na data de sua
publicação.
CUMPRA-SE.
PUBLIQUE-SE.
Alvaro Lazzarini
Presidente
50
MANUAL DE PROCEDIMENTOS
relativos ao gerenciamento eletrônico de imagens de documentos
Portaria nº 69/2006
51
2. DA PREPARAÇÃO DOS DOCUMENTOS PARA DIGITALIZAÇÃO
3. DA DIGITALIZAÇÃO
52
4. DO CONTROLE DE QUALIDADE DAS IMAGENS DIGITALIZADAS
4.1. Deverá ser realizado controle de qualidade rigoroso para garantir que as
imagens digitalizadas tenham qualidade aceitável, tanto para visualização pelo
monitor do computador, quanto para a impressão.
5. DA INDEXAÇÃO
8.1. Após a gravação dos dados, as mídias “A” deverão ser mantidas em
ambiente apropriado para sua conservação e as mídias “B” e seguintes, se
houver, utilizadas para consulta, atentando-se para o seguinte:
55
· 8.1.5. O acesso às mídias “A” será restrito ao responsável pela
dependência onde elas estiverem armazenadas.
56
O QUE HÁ PARA LER
PAES, Marilena Leite. Arquivo: teoria e prática. 3ª ed. rev. e ampl. RJ: Editora
FGV: 2004
32
Paulo, define normas para a avaliação, guarda e eliminação de documentos de
arquivo e dá providências correlatas. Disponível em <http:www.saesp.gov.br>
33