Sie sind auf Seite 1von 89

LEONARDO DALLA BERNARDINA SANTOS

O PROCESSO DE IMPLANTAO DE UM REPOSITRIO DIGITAL DE INFORMAES BASEADO EM SOFTWARE LIVRE

Monografia apresentada ao Departamento de Cincia da Computao da Universidade Federal de Lavras, como parte das exigncias do curso de Ps-Graduao Lato Sensu em Administrao de Redes Linux, para a obteno do ttulo de especialista em Redes Linux Orientador Prof. Joaquim Quinteiro Ucha

LAVRAS MINAS GERAIS BRASIL 2006

LEONARDO DALLA BERNARDINA SANTOS

O PROCESSO DE IMPLANTAO DE UM REPOSITRIO DIGITAL DE INFORMAES BASEADO EM SOFTWARE LIVRE

Monografia apresentada ao Departamento de Cincia da Computao da Universidade Federal de Lavras, como parte das exigncias do curso de Ps-Graduao Lato Sensu em Administrao de Redes Linux, para a obteno do ttulo de especialista em Redes Linux. APROVADA em 30 de Abril de 2006 Prof. Joaquim Quinteiro Ucha (Orientador): ___________________ Profa. Ktia Cilene Amaral Ucha: ___________________________ Prof. Denilson Vedoveto Martins: ____________________________

LAVRAS MINAS GERAIS BRASIL

DEDICATRIA

Aos me u s pais, Fon t e s de ins p i r a o e for a. Se eu che g a r a ser m e t a d e do q u e significa m para mim, me dou por satisfeito.

AGRADECIMENTOS

Ao meu orien t a d o r , Prof. Joaq u i m; me impre s sio n a como algu m to ocup a d o pode ser sem p r e to dispo nvel.

Pr o f Elie t h e , m i n h a m e a d o t i v a , p o r ser semp re mais do que espero dela.

Ell e n , m i n h a n a m o r a d a . Se m p r e p r e s e n t e n a m e d i d a ce r t a . Mais q u e gra t o a voc , s o u apaixo n a d o por voc.

A Deus; por tu d o, sim p le s m e n t e . Por coloc a r na mi n h a vida pe s s o a s co m o es s a s e ta n t a s ou t r a s . Se fos s e agra d e c e r a toda s, ocuparia mais pginas que o trabalh o.

RESUMO
A instituio onde este trabalho foi desenvolvido sente j h algum tempo a necessidade de disponibilizar parte do contedo que produz de forma online, visando principalmente preservao a longo prazo, interoperabilidade com outras instituies e a proporcionar acesso fcil a esse material. Existem vrios programas que permitem que esse objetivo seja alcanado. Este trabalho avalia algumas das ferramentas disponveis baseadas em software livre, tendo em vista as necessidades da instituio onde o trabalho foi desenvolvido e verifica se o software livre pode adequar-se a esse nicho de mercado que so os repositrios digitais da informao e que no se restringe apenas a bibliotecas, mas a qualquer instituio que produza informao que deva ser preservada, compartilhada e facilmente acessada.

SUMRIO
LISTA DE FIGURAS.................................................................04 LISTA DE TABELAS................................................................ 05 1. INTRODUO........................................................................06 2. A INSTITUIO..................................................................... 09 2.1 Histrico...................................................................... 09 2.2 Necessidades gerais identificadas............................... 11 2.2 Necessidades especficas quanto ao software/usurio.12 3. REPOSITRIOS DIGITAIS DE INFORMAO..................19 3.1 Conceitos bsicos........................................................ 19 3.2 Metadados................................................................... 22 3.2.1 Open Archives Initiative (OAI).............................27 3.2.2 MARC...................................................................29 3.2.3 METS.................................................................... 31 3.2.4 Dublin Core...........................................................34 3.3 Necessidades de software............................................37 3.4 Necessidades de hardware...........................................38 3. Necessidades de pessoal..............................................39 4. APLICATIVOS ANALISADOS............................................. 41 4.1 Comparao dos aplicativos........................................42 4.2 DSpace.........................................................................45 4.3 CDSWare.....................................................................52 4.4 Nou-rau........................................................................55 4.5 Greenstone...................................................................59 4.6 Escolha do software.....................................................60 5. A IMPLANTAO DO REPOSITRIO................................63 5.1 Poltica de construo e organizao do acervo..........63 5.2 Polticas de acesso....................................................... 66
2

5.3 Definio dos padres de formato e nomenclatura..... 67 5.4 Questes sobre preservao digital............................. 68 5.5 Dificuldades encontradas............................................ 72 6. CONCLUSO E PROJETOS FUTUROS...............................73 REFERNCIAS BIBLIOGRFICAS......................................... 75 APNDICE A...............................................................................82

LISTA DE FIGURAS
Figura 4.1 Apresentao bsica dos metadados de um item no DSpace................................................................................................ 48 Figura 4.2 Interface de busca do DSpace.............................................49

LISTA DE TABELAS
Tabela 1 Lista de verbos possveis numa requisio OAI-PMH......... 28 Tabela 2 Comparao dos requisitos obrigatrios da instituio com os recursos dos aplicativos analisados..........................................................42 Tabela 3 Comparao dos itens desejveis para um repositrio digital institucional com os recursos dos aplicativos analisados.........................43

1. INTRODUO
A funo bsica de uma biblioteca tornar o acesso informao mais rpido, eficiente e democrtico. Isso por si s j justifica a necessidade de uma biblioteca virtual ou, num sentido mais amplo e que ser usado neste trabalho, um repositrio digital de informaes. A necessidade mais urgente da biblioteca de ensino superior onde foi realizado este trabalho disponibilizar o texto integral dos trabalhos acadmicos para consulta online, uma vez que os exemplares impressos no so emprestados por ser difcil obter uma nova cpia em caso de extravio. O nmero de instituies de ensino superior cresceu significativamente nas ltimas dcadas. Geralmente do interesse das bibliotecas dessas instituies compartilhar sua produo intelectual por diversos motivos, como receber em troca a produo de outras instituies, promover a instituio para seus clientes em potencial ou mesmo simplesmente para facilitar o acesso informao comunidade interessada. A maioria dos usurios dessas bibliotecas j est habituada ao uso da Internet e agilidade e possibilidades de auto-atendimento que ela oferece e esperam isso tambm da biblioteca. Segundo (FURLAN, 1993): cada vez mais os clientes estaro estruturados e exigentes, esperando receber valor agregado que a informao pode fornecer aos produtos e servios...por muito tempo corremos atrs da tecnologia chegou a vez da tecnologia correr atrs de ns.
6

O objetivo disso tornar o acesso do usurio aos servios da biblioteca o mais rico e autnomo possvel. necessrio considerar tambm que a instituio produz material nos demais setores, no apenas naqueles diretamente envolvidos com o ensino. Esse material pode ser usado como apoio ao desenvolvimento profissional nesses setores ou ainda guardado para fins de memria histrica. Por isso, muitas vezes acaba sendo encaminhado biblioteca ou, se no, se perde com o tempo. Muito desse conhecimento j originalmente digital, enquanto outra parte digitalizada posteriormente. De qualquer forma, essas obras so candidatas a ajudar a compor o acervo de um repositrio digital de informaes. Considerando tudo isso que a instituio onde este trabalho foi desenvolvido decidiu investir na implantao de um repositrio digital de informaes disponvel via web. importante observar que o termo repositrio digital de informaes tambm pode ser encontrado na literatura como biblioteca digital, biblioteca virtual ou base de dados de informaes e que em alguns casos eles so utilizados de forma intercambivel. Neste trabalho ser utilizado preferencialmente o termo repositrio digital de informaes, referindo-se a um software instalado, disponvel e com contedo que possa ser acessado, ou seja, a todo o conjunto de software, informaes armazenadas, procedimentos, equipamentos e pessoas que disponibiliza conhecimento ao usurio final. Quando tratar-se apenas do software que permite armazenar e recuperar informaes ser usado s o termo software. Neste contexto o termo obra refere-se a qualquer registro de informao. A informao pode estar registrada em diferentes formatos
7

(udio, vdeo, texto) e suportes (fita K7 ou CD, DVD ou fita VHS, livro ou jornal, respectivamente). Uma obra, como ser tratada aqui, pode assumir qualquer formato ou mesmo mais de um formato simultaneamente. Por exemplo, um livro pode conter anexo um CDROM; ambos sero considerados, em conjunto, como uma nica obra. No repositrio digital, uma obra tambm pode conter mais de um formato, e o suporte pode ser o HD do servidor, CD-ROM, DVD, fita DAT etc. Para simplificar, qualquer desses suportes ser tratado apenas como suporte digital ou meio digital. O trabalho est estruturado da seguinte forma: o Captulo 2 trata da instituio em que ocorre a implementao do repositrio digital de informaes, seu histrico, organizao e necessidades consideradas para a utilizao de um repositrio digital de informaes; o Captulo 3 trata desses repositrios digitais, conceituando-os e levantando questes especficas acerca do software, do hardware, do tipo de profissional necessrio ao seu funcionamento e outras questes mais gerais que surgem durante o ciclo de utilizao do repositrio; o Captulo 4 apresenta alguns programas disponveis e analisa a adequabilidade de suas caractersticas s necessidades percebidas da instituio; o Captulo 5 apresenta o software escolhido dentre os apresentados e as etapas do processo gerado pela instalao do software e implantao do repositrio digital at o ponto onde se encontra atualmente. O Captulo 6 descreve as concluses deste autor, bem como aponta os projetos a serem desenvolvidos a partir da concluso deste.

2. A INSTITUIO
2.1 Histrico A Igreja Adventista do 7 Dia teve sua origem num grupo de estudiosos da Bblia que se organizou como igreja em 1863. Esse grupo decidiu estabelecer escolas que, no decorrer dos anos, expandiram sua clientela a todos aqueles que simpatizavam com sua filosofia e seus mtodos. No dia 3 de junho de 1872, a educao adventista teve seu incio com a abertura da Battle Creek School, Michigan, Estados Unidos, que se destinava a atender os nveis elementar e secundrio (EDUCADVENTISTA.ORG, 2006). No Brasil, em 1896, comeou a funcionar em Curitiba, Paran, o Colgio Internacional, sob a direo de Guilherme Stein Jr. Em 1897, Stein Jr. fundou uma nova escola em Gaspar Alto, SC. A partir da, o trabalho educacional cresceu e muitas escolas foram agregadas a essa, formando a rede de escolas adventistas (EDUCADVENTISTA.ORG, 2006). Mundialmente, a educao adventista est presente em 160 pases, representada por mais de seis mil instituies da educao infantil livre docncia, totalizando cerca de um milho de alunos (EDUCADVENTISTA.ORG, 2006). No Brasil, conta com mais de quinhentas unidades escolares e 128 mil alunos. Alm dessas unidades, a organizao mantm 12 colgios em regime de internato, da educao bsica superior, e um Centro Universitrio em So Paulo, inicialmente conhecido como Instituto

Adventista de Ensino (IAE) e hoje como UNASP Campus So Paulo ou UNASP-SP. O IAE, inicialmente pequeno, cresceu, e a necessidade de um novo campus tornou-se urgente. Foi adquirido um terreno em Engenheiro Coelho, SP, onde foi construdo um segundo campus, denominado Novo IAE (hoje UNASP-EC). Com o objetivo de ainda fundar a Universidade Adventista do Brasil, mais cursos foram abertos, ento em dois campi. Educao Artstica, Letras, Administrao, Nutrio, Matemtica, Educao Fsica, Cincia da Computao, Biologia, Engenharia Civil, Comunicao Social, Contabilidade, Direito, cada uma das faculdades implantadas deu gradativamente corpo ao projeto do Centro Universitrio Adventista, nvel alcanado no final da dcada de 1990 (UNASP, 2006). Recentemente, o UNASP uniu-se ao cinqentenrio Instituto Adventista So Paulo (IASP), em Hortolndia, que passou a ser conhecido como UNASP-HT. Juntos, os trs campi somam mais de cinco mil alunos, que cursam do ensino infantil at a faculdade. Somam, tambm, mais de vinte cursos e oferecem aos alunos a possibilidade de viverem no prprio campus, num conceito de imerso no ensino. Alm dos trs campi UNASP em So Paulo, h outras instituies adventistas que oferecem cursos superiores em outras partes do Brasil (UNASP, 2006). Quanto ao uso de um repositrio digital, no momento existem iniciativas individuais nessas instituies, mas nada que abrace todo o sistema educacional adventista brasileiro ou mesmo os trs campi UNASP. O objetivo inicial a implantao do repositrio no UNASP-SP para a partir de ento avaliar as possibilidades de expanso.
10

2.2 Necessidades gerais identificadas Com o aumento do nmero de cursos do UNASP-SP e o incentivo maior pesquisa, cresceu a produo de conhecimento. Foi estabelecido que todos os alunos deixassem uma cpia impressa de seus trabalhos de concluso de curso na biblioteca. Esse acervo fechado, de modo que para acess-lo o usurio da biblioteca deve ser acompanhado por um funcionrio. Como na maioria dos casos h apenas um exemplar de cada trabalho, as obras no podem ser emprestadas, apenas consultadas na biblioteca, j que em caso de extravio a reposio difcil. Isso gera duas dificuldades: 1) a necessidade de acompanhamento do funcionrio tira dele tempo que poderia ser usado para desenvolver outra atividade; 2) muitos usurios no tm tempo suficiente para consultar as obras na biblioteca. Para eles seria mais cmodo e produtivo ter a obra disponvel e acessvel de qualquer ponto, inclusive de sua residncia. A instituio passou ento a solicitar que os alunos entregassem biblioteca uma cpia do trabalho em disquete ou CD, alm da impressa. Uma vez que para cada trabalho impresso haveria outro em meio digital, o digital poderia ser enviado por e-mail ou copiado para o usurio que precisasse dele. Mas na realidade isso mostrou-se impraticvel devido grande quantidade de solicitaes e ao fato de que o manuseio constante dessas mdias acelera a sua deteriorao. O que motivou este trabalho foi a necessidade imediata de tornar facilmente disponvel o texto integral dos trabalhos de concluso de curso dos alunos de graduao e ps-graduao do UNASP Campus SP. No

11

entanto, no futuro ele no se limitar a essa facilidade. Os principais objetivos para o repositrio digital so: Criar uma base dados organizada do conhecimento produzido na instituio; Compartilhar esse contedo entre instituies, a princpio adventistas, mas sem se restringir a elas; Facilitar o processo de construo do acervo da instituio provendo um local nico para armazenamento, indexao e recuperao das informaes. 2.3 Necessidades especficas quanto ao software / usurio Considerando-se os objetivos gerais da instituio, foi analisado quais seriam as necessidades especficas quanto ao software a ser utilizado. Algumas so imprescindveis e outras so apenas desejveis. A Tabela 2 e a Tabela 3, ambas no incio do Captulo 4, sintetizam essas necessidades, comparando-as com as funcionalidades presentes nos aplicativos analisados. O perfil da maioria dos usurios do repositrio de informaes no necessariamente o do pesquisador mais aprofundado, mas basicamente alunos de graduao e especializao, alm de funcionrios das reas administrativas da instituio. Portanto, o software deve ser fcil de utilizar e no necessitar de nenhuma instalao ou configurao na mquina do usurio final, o que vivel utilizando-se um software via web (apesar de a instalao de algum plugin popular no ser problema). Na mquina do bibliotecrio a questo da instalao e configurao de um software no seria problema, j que um usurio
12

extremamente interessado no funcionamento do software. Alm disso, a quantidade de bibliotecrios no to grande quanto a de usurios finais e o Centro de Informtica da instituio oferece suporte tcnico para fazer a instalao e configurao necessrias. A interface do software deve ser intuitiva. Caso contrrio corre-se o risco de a utilizao do repositrio ficar aqum do ideal porque o usurio pode no estar disposto a percorrer o processo de instalao, configurao e aprendizado de uma ferramenta mais complexa, mesmo com o benefcio de melhores resultados em sua pesquisa. O software deve possibilitar a criao de colees distintas para facilitar a organizao do acervo. A estrutura mnima desejada a de agrupar as obras em colees. Por exemplo, as monografias produzidas pelos alunos do curso de psicologia estariam agrupadas na coleo Monografias do Curso de Psicologia. Seria interessante tambm que houvesse a possibilidade de hierarquia entre as colees. Dando continuidade ao exemplo anterior, neste caso poderia ser criada a coleo Curso de Psicologia e subordinada a ela as colees Monografias e Materiais das Disciplinas. Subordinada a esta tambm poderia ser criada a coleo Psicologia do comportamento, contendo os materiais dessa disciplina. Seria interessante, tambm, que o software apresentasse comportamentos diferentes para colees diferentes, pelo menos quanto a texto e imagens. Por exemplo, se uma coleo composta por texto, o resultado da consulta deveria exibir o ttulo, autor e os arquivos disponveis. Se fosse uma coleo de imagens, exibir uma lista de miniaturas, ttulos e responsveis pela imagem (fotgrafo, profissional de artes grficas etc.).
13

Apesar de a estrutura de colees ser importante, muitas vezes o usurio do repositrio prefere navegar por listas e escolher visualizar apenas as obras de determinado autor, por exemplo. Nesse caso, a estrutura hierrquica seria desfavorvel. Sendo assim, o software deve dar a opo de navegar pelo menos por listagens de autor, ttulo e ano ou data. A opo de navegar por ano especialmente interessante para a busca pelos trabalhos de concluso de curso e monografias, onde essa informao muito relevante; mas no se restringe a esses tipos de material. Pode aplicar-se tambm a outras obras que podem ficar obsoletas com o tempo, o que notvel, por exemplo, em obras das reas que envolvem tecnologia. O responsvel pela coleo poderia verificar as obras de certo perodo de tempo para decidir se devem ou no ser retiradas do acervo. No que diz respeito recuperao da informao, alm da organizao por colees e da possibilidade de navegar por listas diversas, o software deve oferecer opes de busca. O mnimo desejvel a busca por autor, ttulo, assunto e palavras-chave. No entanto, quanto maior a possibilidade de refinamento melhor. O ideal seria a opo de busca tambm pelo texto integral da obra (caso seja texto) e ainda combinaes que incluam todos esses campos. Para o administrador de rede, a facilidade de instalao e de integrao com os aplicativos j instalados no servidor interessante. Assim, se dois aplicativos tiverem funcionalidades semelhantes e o primeiro deles trabalhar com o banco de dados j em funcionamento mas o segundo no, o primeiro ter maior preferncia. O mesmo vale para outros requisitos como servidor de internet e linguagens de programao.
14

importante ressaltar que indispensvel que todos esses programas sejam livres, j que o local escolhido para sua instalao foi o laboratrio de informtica, que baseado em software livre, alm de no haver interesse por parte da instituio em investir em software proprietrio, caso o software livre atenda s necessidades identificadas. Muitos sites e portais na internet oferecem personalizao para o usurio. Geralmente necessrio fazer um pequeno cadastro incluindo o endereo de e-mail e a partir de ento possvel contar com servios como alertas personalizados e carrinhos de compras, dependendo do tipo de produto oferecido pelo site em questo. Seria interessante que o software do repositrio digital oferecesse esse tipo de servio. Usurios cadastrados teriam acesso a servios como salvar os resultados de suas buscas, receber por e-mail alertas quando uma obra de determinado assunto fosse adicionada ao acervo ou quando determinada obra estiver para ser excluda do acervo. Usurios em geral, mesmo os no cadastrados, poderiam ver na pgina inicial quais foram as ltimas obras acrescentadas ao acervo. Tambm seria interessante a exibio de estatsticas de utilizao para todos os usurios (obras mais visualizadas, obras mais baixadas etc.) e outras especficas para o administrador (quais colees ocupam mais espao na rede, quais recebem mais acessos etc.). Ainda na questo do cadastro de usurios e personalizao de acesso, importante definir quem pode submeter obras ao repositrio e em que nvel (autor, revisor, bibliotecrio etc.). Seria interessante que o prprio responsvel pela obra fizesse a submisso. No entanto, para garantir a relevncia da obra e a qualidade dos seus descritores (autor, assunto, ttulo, local e data de edio etc.), conhecidos como metadados e
15

que sero discutidos no prximo captulo, pode ser necessria a participao de pelo menos mais uma pessoa no processo. Por exemplo, um aluno pode submeter um trabalho ao repositrio, o seu orientador aprovar ou no a incorporao desse trabalho ao acervo e, se aprovado, o bibliotecrio acrescentar os metadados ao registro do trabalho. Se o trabalho no for aprovado, excludo da base de dados, sendo que o autor deve ser informado antes. Apesar de no ser objetivo desta monografia, a personalizao do acesso abre outras possibilidades de uso para o repositrio digital que interessante citar. O acesso a determinadas colees pode ser restrito, podem haver colees pblicas e outras disponveis apenas para usurios internos instituio ou a certos setores da instituio. Por exemplo, considerando que a secretaria de uma escola no tenha um sistema de informtica, ela poderia manter as notas dos alunos no repositrio para consulta mais rpida, mas no interessante que qualquer pessoa veja esses dados. Outra opo a de cobrar uma taxa mensal de cada usurio por acesso a determinada coleo. Se o software do repositrio mantiver logs necessrios, tambm possvel cobrar uma taxa por cada obra acessada e repassar um percentual dessa taxa para o autor da obra, de modo que este se sinta encorajado a manter atualizado o seu trabalho. Um dos elementos mais importantes e controversos de uma obra o assunto. Dois profissionais da informao podem ter opinies distintas sobre qual o assunto de uma obra. O assunto tambm pode assumir facetas ou nomenclatura diferentes de acordo com a instituio ou ainda pode assumir vrios termos significando a mesma coisa. Por exemplo, um pesquisador interessado em doenas de corao pode buscar pelo assunto
16

doenas de corao, doenas cardacas ou cardiopatias. Todos os termos so vlidos e significam a mesma coisa mas, dependendo da formao do usurio que vai pesquisar, um deles pode ser utilizado preferencialmente ou o usurio pode at mesmo no conhecer algum dos termos. interessante que haja um vocabulrio controlado, ou seja, uma lista de termos que devem ser utilizados e uma lista de termos que no devem ser utilizados. De preferncia, os ltimos devem remeter aos primeiros caso haja equivalncia. Por exemplo, se o pesquisador tentar procurar pelo assunto Cardiopatias deve ser informado pelo software de que o termo utilizado naquela base especfica Doenas cardacas. Termos que remetem a outros termos so chamados de remissivas pela rea da biblioteconomia e cincias da informao. Apesar de ser desejvel que o software implemente a utilizao de remissivas, isso tambm pode ser implementado operacionalmente, ou seja, a partir de um acordo entre os administradores do contedo do repositrio. Nem sempre os usurios do repositrio tero acesso internet no momento exato em que necessitam. Pensando nisso, um item desejvel que o software permita a exportao de colees ou partes de colees para utilizao local. Por exemplo, na rede adventista existem escolas do nvel fundamental e mdio que no tm condies de oferecer acesso Internet para seus alunos. Nesse caso, seria possvel exportar os itens de interesse para determinada escola de modo que essa parte do repositrio pudesse ser acessada a partir de um CD-ROM. Outra possibilidade um usurio fazer uma busca e exportar os resultados para consulta local posteriormente.

17

O software deve apresentar caractersticas de interoperabilidade, permitindo no mnimo a importao e exportao manual de registros bibliogrficos de acordo com o padro de descrio bibliogrfica escolhido. Ser discutido mais sobre este assunto no Captulo 3, ao se falar sobre metadados. O ideal que seja implementado algum mecanismo automtico de compartilhamento de obras e metadados. Finalmente, interessante que o software possa referenciar a obra atravs de identificadores persistentes, de forma que, mesmo que a obra mude de local onde est hospedada, as referncias a ela continuem vlidas. Identificadores persistentes podem ser endereos que referenciam uma obra e no mudam mesmo que o endereo do site onde a obra est hospedada seja alterado. Isso permite que um repositrio-destino importe com segurana apenas os registros bibliogrficos de um repositrioorigem e no necessariamente o contedo integral da obra, economizando espao em disco). O repositrio-origem pode ter seu endereo alterado e mesmo assim o repositrio-destino poder acessar a obra importada, uma vez que no registro bibliogrfico importado consta o identificador persistente relativo quela obra.

18

3. REPOSITRIOS DIGITAIS
3.1 Conceitos bsicos

DE

INFORMAO

As bibliotecas tm servido como local de armazenamento, preservao, organizao e divulgao de informaes desde a sua criao. Em seus primrdios, a informao armazenada estava contida basicamente em livros e seu acesso era excessivamente controlado. Com o tempo, o suporte da informao tornou-se mais variado e a funo primordial da biblioteca passou a ser levar a informao ao usurio que necessita dela. Conforme a tecnologia evoluiu, o suporte da informao diversificou-se ainda mais e as bibliotecas deixaram de trabalhar apenas com livros para receber vrios outros tipos de registros informacionais como fotografias, gravaes de udio e/ou vdeo, programas de computador etc. A partir da dcada de 90 principalmente, com a revoluo dos computadores e das tecnologias de redes e telecomunicaes comeou a ser possvel construir colees totalmente digitais. A idia de compartilhar informaes entre bibliotecas tambm ganhou foras, inicialmente com o compartilhamento de registros bibliogrficos, que so descries padronizadas sobre as obras presentes numa biblioteca, mas no necessariamente a obra em si. Trocando esses registros, as bibliotecas participantes de programas de cooperao tinham condies de conhecer o acervo das outras sem a necessidade da presena fsica de um profissional. No entanto, para acessar o contedo de uma obra ainda seria preciso estar diante dela.

19

Com o

aumento da capacidade de armazenamento dos

computadores, bem como o surgimento e evoluo da World Wide Web e a maior velocidade das redes, comea-se a pensar em repositrios de informao que permitam o acesso ao contedo integral das obras em formato digital. (BARTON, 2005) define repositrios digitais institucionais como um banco de dados com um conjunto de servios para capturar, armazenar, indexar, preservar e distribuir a pesquisa de uma instituio de ensino em formatos digitais. Repositrios digitais de informao so, portanto, colees de obras que podem estar em diversos formatos, mas em suporte digital, e que estejam disponveis para acesso atravs do computador. Podem ser acessados a partir de discos magnticos ou por uma rede de computadores. No existe limitao quanto ao contedo, podendo ser repositrios de informaes institucionais (memorandos, projetos etc.), acadmicas (teses, monografias, resenhas) ou qualquer outro tipo de informao que se deseje. Falando forma: ...um repositrio institucional de universidade um conjunto de servios que uma universidade oferece aos membros de sua comunidade visando o gerenciamento e disseminao de materiais digitais criados pela instituio e membros de sua comunidade. essencialmente um compromisso da instituio quanto responsabilidade sobre esse material digital, incluindo preservao a longo prazo
20

de

repositrios

digitais

institucionais,

mais

especificamente de universidades, (LYNCH, 2003) os define da seguinte

quando apropriado, bem como sua organizao e acesso ou distribuio...um repositrio institucional maduro e bem realizado conter o trabalho intelectual da faculdade e estudantes tanto materiais de pesquisa quanto de ensino bem como documentos sobre a atividade da instituio em si na forma de registro de eventos e desempenho da vida intelectual da instituio. Conforme (NOERR, 2003), entre os principais objetivos que levam uma instituio a utilizar um repositrio digital de informaes podem estar: Participar de uma comunidade que produz e compartilha conhecimento; Aumentar a percepo de valor da biblioteca diante do restante da instituio ou de outras bibliotecas; Promover a instituio diante de seus concorrentes e potenciais clientes; Gerar renda, cobrando pelo acesso ao acervo.

Alm dos motivos apresentados por (NOERR, 2003), outros identificados por este autor seriam: Aumentar a disponibilidade da informao, tanto geograficamente quanto no que diz respeito facilidade de busca e velocidade de acesso;

21

Tornar o repositrio digital um complemento do acervo da biblioteca fsica; Diminuir a quantidade de visitas dos usurios biblioteca, o que pode ser desejvel caso a nica coisa que motive a visita seja a consulta ao contedo que poderia estar disponvel via Web;

Liberar espao fsico ocupado por materiais que podem ser disponibilizados digitalmente.

3.2 Metadados Segundo (NISO, 2004), metadados so informaes estruturadas que descrevem, explicam, localizam ou seno facilitam a localizao, uso ou gerenciamento de um recurso informacional. Tambm so chamados de dados sobre dados ou informaes sobre informaes. J (ALVARENGA, 2003), define um metadado como dado que descreve a essncia, atributos e contexto de emergncia de um recurso (documento, fonte, etc.) e caracteriza suas relaes, visando ao acesso e ao uso potencial. Em outras palavras, metadados so informaes sobre determinada obra que abrangem vrios contextos como que tipo de material a compe, responsabilidade de autoria, onde a obra se localiza, onde foi criada etc. Existem esquemas que do estrutura a essas informaes, chamados de esquemas de metadados, conjuntos de metadados ou ainda padres de metadados. Normalmente, um dos objetivos quando esses padres so criados garantir a uniformidade na descrio das obras.

22

Em bibliotecas convencionais um esquema muito usado o AACR2 (Anglo American Cataloguing Rules Edition 2) (GORMAN, 1983), que define os metadados que vo constar nas fichas catalogrficas e, conseqentemente, nos catlogos. Com a popularizao dos computadores, o AACR2 passou a ser usado em conjunto com o formato MARC, que mais facilmente tratado por computador (LIBRARY OF CONGRESS, 2005). Como cada tipo de obra pode ter um esquema mais adequado sua descrio especfica, surgiram vrios padres mais especficos para determinadas reas que para outras. Por exemplo, durao em minutos seria um metadado interessante para um filme ou uma msica, mas no faz sentido para um texto impresso ou uma fotografia. Por outro lado, autor um metadado interessante para praticamente qualquer tipo de obra. Normalmente os esquemas de metadados apresentam informaes mais gerais coincidentes como autor e ttulo da obra, por exemplo, enquanto abrangem informaes mais aprofundadas sobre o tipo de material a que se destinam. A profundidade da descrio desejada pelo profissional da informao tambm influencia na escolha de um padro de metadados; quanto mais detalhada a descrio desejada, mais campos o padro de metadados dever conter. Os metadados facilitam a busca nas bases de dados. A busca utilizando metadados ganha em eficincia e relevncia, uma vez que possvel determinar quais campos devem ser pesquisados e que valores procurar em cada campo, o que no poderia ser feito num arquivo de fichas catalogrficas ou numa busca full-text, por exemplo. Comparando mecanismos de busca da internet, que apresentam indexao automtica, com busca por metadados criados por seres humanos, (KNIGHT, 2004)
23

diz que a utilizao de metadados retorna resultados relativamente pequenos mas significativos quanto ao detalhamento. Para obter funcionalidade semelhante, considerando-se uma biblioteca convencional sem computadores que contenha vrios tipos de material, se o material desejado fosse um filme, seria necessria a busca manual nas fichas catalogrficas de autor, assunto ou ttulo para, a sim, procurar o filme especificamente. Poderia ser criado um arquivo de fichas a mais, organizado por tipo de material. O mesmo seria necessrio caso a busca tivesse que ser realizada por data de publicao. Tudo isso custoso e ineficiente. Mesmo se a busca fosse eletrnica, mas simplesmente acessando o contedo completo da obra, seria difcil localizar precisamente o que se deseja. E h tipos de materiais que no podem ser encontrados atravs de uma busca full-text como, por exemplo, programas j compilados. A busca eletrnica por meio de metadados acelera o processo e restringe a pesquisa, aumentando a eficincia e relevncia dos resultados. Conforme (NISO, 2004), o uso de metadados apresenta como funcionalidades permitir que os recursos sejam encontrados a partir de critrios relevantes, agrupar recursos semelhantes e, conseqentemente, segregar recursos com caractersticas diferentes, alm de prover informaes sobre a localizao dos recursos. Por recursos, pode-se entender obras em quaisquer formatos, digitais ou no. Segundo (COLE, 2002), os seguintes princpios auxiliam na construo de metadados de qualidade: Devem ser apropriados ao material armazenado, usurio do acervo e uso pretendido para o acervo; Devem suportar interoperabilidade;
24

Devem ser confiveis; Devem suportar gerenciamento a longo prazo dos objetos digitais.

Como (COLE, 2002) cita, a interoperabilidade tambm uma questo que depende de um padro de metadados. Se duas bibliotecas tm a mesma obra, possvel e desejvel que apenas uma delas passe pelo processo descrever a obra. Desde que o sistema de informtica de ambas utilize o mesmo padro de metadados ou oferea a possibilidade de traduo entre padres a descrio feita em uma biblioteca pode ser importada para a base de dados da outra, evitando o retrabalho. Num ambiente digital, caso entre os elementos do padro de metadados adotado conste a localizao eletrnica da obra, basta que se importem os metadados, no necessariamente a obra em si. Assim, o pesquisador recebe como resultado de sua busca local um endereo para uma obra que se encontra armazenada em uma base de dados remota. A base local apresenta um contedo mais rico sem necessariamente hospedar a obra. Torna-se possvel inclusive ter um repositrio digital sem nenhuma obra de fato, ou seja, uma compilao de registros bibliogrficos que sejam pertinentes rea de conhecimento abrangida pelo repositrio (que pode ser especializado em informaes sobre engenharia gentica, por exemplo) e cujos metadados remetam obra em si, armazenada em outro local. Presta-se o servio desejado fornecer informao relevante na rea de atuao escolhida - mas com economia de recursos.

25

Os esquemas de metadados contm elementos que recebem nomes de acordo com o contexto (autor para livro e compositor para uma msica, por exemplo) e valores (o nome do autor/compositor propriamente dito). Assim, os elementos dos metadados recebem valores. Normalmente existem regras de sintaxe para os elementos e pode ser interessante especificar regras para o contedo dos valores a fim de garantir a interoperabilidade. Exemplificando a questo do contedo dos valores, se um livro apresenta dois ttulos na capa, qual dos dois dever ser considerado realmente o ttulo principal do livro? Se no houver nenhuma regra, duas pessoas responsveis pelo preenchimento dos valores dos elementos de metadados podem escolher ttulos distintos para uma mesma obra. Ou ainda, uma mesma pessoa pode escolher ttulos distintos, caso trabalhe a mesma obra em duas ocasies diferentes. O mesmo vale para o assunto da obra, que ainda mais passvel de interpretaes distintas. O AACR2, apesar de no se referir especificamente a metadados para objetos digitais, trata de questes de padronizao desses valores, podendo ser uma ferramenta interessante dependendo do ambiente em que est inserido o repositrio. Quanto sintaxe, os esquemas atuais voltados s obras digitais geralmente utilizam a linguagem SGML (Standard Generalized Mark-up Language) (W3C, 2004) ou XML (Extensible Mark-up Language) (W3C, 2006), desenvolvidas pelo World Wide Web Consortium (W3C) e amplamente usadas para a troca de informaes estruturadas. No contexto dos repositrios digitais, existem duas possibilidades de armazenar metadados: armazenar os metadados dentro dos prprios
26

arquivos da obra ou ligar os metadados obra correspondente. Pginas HTML, por exemplo, so candidatas perfeitas a armazenar os metadados dentro da prpria obra. Alguns formatos de arquivo tambm possuem campos para metadados. Em imagens JPEG, por exemplo, h informaes EXIFF; em arquivos de udio no formato MP3, existem as tags ID3. Por outro lado, no todo tipo de arquivo que permite armazenar metadados internamente, ou as possibilidades de descrio oferecidas so limitadas. Organizar os metadados externamente obra proporciona maior flexibilidade ao mesmo tempo em que possibilita uma interface mais genrica para armazenamento e recuperao desses metadados. A seguir so discutidos conceitos quanto questo dos metadados e interoperabilidade entre sistemas e apresentadas tendncias e padres mais recorrentes atualmente no universo dos repositrios digitais dentro do contexto deste trabalho. 3.2.1 Open Archives Initiative (OAI) Segundo (OPEN ARCHIVES FORUM, 2003), a Open Archives Initiative (Iniciativa dos Arquivos Abertos ou simplesmente OAI) desenvolve e promove padres de interoperabilidade que visam facilitar a disseminao eficiente de contedo. O objetivo prover a interoperabilidade entre repositrios atravs do compartilhamento, disseminao e armazenamento de metadados e materiais digitais. No contexto da OAI existem dois tipos de funes no mutuamente exclusivas que um repositrio pode assumir: provedores de dados e provedores de servios. Os primeiros disponibilizam seus metadados para os ltimos. Estes coletam metadados de vrias fontes e o
27

servio oferecido baseado nessas informaes coletadas. Os metadados coletados podem estar em qualquer formato, apesar de ser necessrio o uso de elementos bsicos do padro Dublin Core, discutido mais adiante, para garantir o mnimo de interoperabilidade (OPEN ARCHIVES FORUM, 2003). Como todo tipo de comunicao requer um protocolo apropriado, o protocolo desenvolvido pela OAI o OAI-Protocol for Metadata Harvesting (Protocolo OAI para coleta de metadados). Ele funciona baseado nos padres HTTP e XML. No define como ser feita a busca dos dados, apenas como os dados devero ficar em um s lugar. As requisies OAI-PMH que podem ser feitas a um repositrio utilizam seis verbos, apresentadas na Tabela 1 ( PRASAD, 2005): Tabela 1 Lista de verbos possveis numa requisio OAI-PMH Verbo Identify ListMetadataFormat s ListSets ListIdentifiers ListRecords GetRecords Retorno Descrio do repositrio Formato de metadados suportado pelo repositrio Agrupamentos (de metadados) definidos pelo repositrio Identificadores do item Apresenta registros do repositrio Adquire registros do repositrio

O repositrio pode ter a opo de responder automaticamente a requisies OAI-PMH, ou seja, se o repositrio implementa o protocolo OAI-PMH, outros repositrios podem fazer requisies em seu banco de metadados (OAI, 2004).

28

O interessante do uso de HTTP e XML que os dados dos repositrios, se transmitidos e armazenados nesses formatos, ficaro visveis a mecanismos de busca como o Google. Caso contrrio, para encontrar uma das obras que constam no repositrio, seria necessrio que o mecanismo de busca utilizado pelo usurio traduzisse os termos pesquisados para a sintaxe de busca do repositrio em questo. Se isso no acontece, o material armazenado no repositrio fica escondido em seu interior. Como existem milhares de repositrios com sintaxes diferentes, h muito material invisvel externamente a esses repositrios, o que conhecido como deep web (web profunda ou web oculta) e, segundo estudos, vrias vezes maior que a parte mais superficial da web (BERGMAN, 2001). Portanto, quando se fala em disseminao neste contexto, refere-se possibilidade de o documento ser extrado da deep web e ficar visvel atravs de mecanismos de busca mais gerais. Atualmente existe inclusive um mdulo para tornar o Apache capaz de responder a solicitaes OAI-PMH (NELSON, 2004) . 3.2.2 MARC O formato MARC foi desenvolvido pela Library of Congress (Biblioteca do Congresso Norte Americano) que a fonte mais confivel para catalogao dos Estados Unidos, portanto uma das autoridades mais reconhecidas no mundo nessa rea. Considerou-se que os computadores no podem ler diretamente as fichas catalogrficas que eram feitas utilizando-se as normas AACR2. Assim, era necessrio um esquema que fosse legvel por computador (LIBRARY OF CONGRESS HELP DESK, 2003).
29

A estrutura do formato MARC descrita a seguir, conforme indicado por (LIBRARY OF CONGRESS HELP DESK, 2003): os registros bibliogrficos so compostos por campos como autor, assunto etc. A estrutura do formato MARC basicamente a seguinte: cada campo associado a um nmero de 3 dgitos, chamado de tag MARC. Assim, cada tag identifica um campo ou uma rea. Dessa forma, o computador pode identificar, a partir das tags, a que campo/rea pertence o valor que vem a seguir. Os 3 dgitos da tag so seguidos por 2 dgitos decimais que podem ser usados como indicadores e que so escritos juntos, mas so independentes, ou seja, so 2 dgitos seguidos e no um nmero com 2 dgitos. Por exemplo, a tag de ttulo acompanhada do indicador apropriado pode significar que o computador deve ignorar determinada parte do ttulo no momento de ordenar os registros. Assim, poderia ser indicado que devem ser ignoradas as trs primeiras letras do ttulo The Matrix, ou seja, a parte interessante desse ttulo, para fins de ordenao, seria apenas Matrix. Alguns campos podem no ter indicadores, ou apenas um dos indicadores definidos. Se o indicador indefinido, utilizase o caracter # significando espao em branco. Um campo pode ter subcampos. Uma obra pode, por exemplo, ter ttulo, subttulo e um ttulo alternativo situaes previstas no AACR2 ou o campo que indica a responsabilidade intelectual da obra pode apresentar vrias recorrncias como autor, tradutor, editor etc. Normalmente os subcampos so indicados por um delimitador, que uma combinao de caracteres, como por exemplo $a ou $b ou $c).

30

Aplicando os 3 conceitos (campos, indicadores e subcampos), o registro do campo ttulo ou da rea de ttulo de uma obra, que a nomenclatura utilizada pelo AACR2, poderia ser representado em formato MARC como segue: 245 14 $a Nos caminhos da vida $b a histria de Jos da Silva. Onde 245 a tag MARC para toda a rea de ttulo (que pode incluir ttulo principal, subttulo, ttulo original em outro idioma, ttulo alternativo etc.), o nmero 1 um indicador que significa que deve haver uma ficha no catlogo (convencional) de ttulos para esta obra, 4 um indicador que diz ao computador para ignorar as quatro primeiras posies (no caso, o termo Nos mais um espao em branco) ao ordenar os registros, $a o ttulo principal e $b o subttulo. Apesar de no ter sido desenvolvido especificamente para objetos digitais, o formato MARC, mesmo sendo um padro j antigo, robusto e flexvel o suficiente para ser adaptado, alm de bem estabelecido (BRANTON, 2004) 3.2.3 METS Em uma biblioteca convencional, no manter metadados estruturais sobre uma obra no necessariamente um problema, uma vez que, caso se percam os metadados, a obra no perder seu conjunto. J obras digitais, sem metadados estruturais, correm o risco de se desintegrarem, ou seja, no haver ligao entre as partes que a
31

compem (diversos artigos de uma revista, por exemplo). Outro caso: se uma obra foi digitalizada, a ausncia de metadados tcnicos sobre o processo de digitalizao pode fazer perder dados importantes sobre a obra original como. Por exemplo, se um livro foi produzido por uma prensa de Guttenberg e posteriormente digitalizado, a omisso dessa informao nos metadados da obra digital faz com que, para o pesquisador, ela perca muito de seu valor (LIBRARY OF CONGRESS, 2005). Essas questes foram premissas que levaram a Library of Congress a desenvolver o METS - Metadata Encoding and Transmission Standard (Padro de codificao e transmisso de metadados), que inclui elementos administrativos e estruturais para trabalhos textuais e baseados em imagens (LIBRARY OF CONGRESS, 2005). Ainda segundo (Library of Congress, 2005), o METS prov um formato XML para codificar metadados necessrios tanto para gesto de objetos de bibliotecas digitais num repositrio quanto para a troca desses objetos entre repositrios (ou entre repositrios e seus utilizadores). Segundo (GARTNER, 2002) o METS um padro emergente projetado para codificar todos os metadados necessrios para uma descrio completa de objetos digitais em uma biblioteca digital. Um documento METS uma aplicao do padro XML, que no-proprietrio e independente de um software especfico (NISO, 2004). Descreve um objeto de uma biblioteca digital e consiste em 7 sees principais, resumidas a seguir conforme (LIBRARY OF CONGRESS, 2005) e (NISO, 2004):

32

1. Cabealho: contm metadados sobre o documento METS em si, como autor, editor etc.; 2. Metadados descritivos: podem ser internos ao documento ou apontar para registros externos, inclusive em outro formato que no o prprio METS (MARC, Dublin Core etc.); 3. Metadados administrativos: descreve como os arquivos que compem a obra foram criados e armazenados, direitos de copyright, metadados sobre o objeto original de onde deriva o que est sendo tratado etc. Tambm podem ser internos ou externos ao documento METS; 4. Seo de arquivos: Lista os arquivos que formam o objeto digital em si (a substncia da obra); 5. Mapa estrutural: aos apresenta arquivos a e hierarquia metadados entre de os cada componentes do objeto digital e faz a ligao desses componentes componente; 6. Ligaes estruturais: registra a existncia de hiperlinks entre ns da hierarquia do mapa estrutural; 7. Comportamento: pode ser usada para associar comportamentos executveis a contedos do objeto METS. Permite que se registrem informaes sobre como os componentes do objeto digital sero renderizados para o usurio, incluindo que aplicativos devem ser usados ou parmetros especficos necessrios ao renderizar um arquivo.
33

3.2.4 Dublin Core Tradicionalmente, a criao de metadados compartilhveis por computador era feita atravs de registros MARC. No entanto, o uso do MARC exige uma quantidade de treinamento que muitas vezes inviabiliza sua utilizao para o pblico no especializado. Nesse contexto emergiu o padro Dublin Core, que forte candidato a se tornar padro para objetos digitais cuja descrio no necessite de um detalhamento extremamente aprofundado (NISO, 2004). O formato Dublin Core um esquema de metadados desenvolvido pela Dublin Core Metadata Initiative (DCMI) com o objetivo de tratar informao digital. Segundo (HANSEN, 1999), o formato Dublin Core foi criado visando descrever um recurso eletrnico (local, formato etc), tornar a descrio simples e possibilitar a indexao, facilitar a pesquisa de recursos e o acesso a esses recursos. Assim, entre as razes para se adotar o formato Dublin Core, esto: facilidade de criao; simples de indexar; indexao mais precisa do que busca full-text; interoperabilidade.

A simplicidade do Dublin Core decorre do fato de que ele composto por apenas 15 elementos, todos opcionais e passveis de repetio, que podem ser codificados em XML (NISO, 2004). Cada elemento contm um valor que usado para descrever o recurso

34

eletrnico em determinado aspecto. Esses 15 elementos so (DCMI, 2004): TITLE: o nome que o criador ou publicador d para a obra; AUTHOR ou CREATOR: a pessoa ou organizao responsvel pelo contedo intelectual da obra; SUBJECT ou KEYWORDS: palavras-chave, assuntos conforme um vocabulrio controlado ou no, descritores de classificao etc.; DESCRIPTION: uma descrio textual da obra; PUBLISHER: Entidade responsvel por disponibilizar a obra como uma editora, universidade etc.; OTHER CONTRIBUTORS: Outros responsveis pelo contedo intelectual da obra, diferente de AUTHOR ou CREATOR. DATE: Data em que a obra se tornou disponvel; RESOURCE TYPE: tipo de obra. Por exemplo: tese, apostila, dicionrio, filme etc. interessante especificar exatamente quais dessas opes estaro disponveis ao catalogador; FORMAT: a representao dos dados da obra ou, em outras palavras, o tipo de arquivo. Podem ser usados os tipos de arquivo MIME, conforme definido pelo padro RFC2046 (RFC2046, 1996); RESOURCE IDENTIFIER: texto ou nmero usado para identificar inequivocamente a obra. Exemplo so as URLs e URNs;

35

SOURCE: o trabalho original, eletrnico, impresso, ou gravao de udio em vinil, por exemplo, de onde a obra derivada;

LANGUAGE: Lngua em que a obra foi produzida; RELATION: relacionamento da obra que est sendo descrita com outras obras; COVERAGE: descreve caractersticas espaciais e temporais da obra, quando aplicvel; RIGHTS MANAGEMENT: a idia ligar este elemento a uma URL ou URI que apresente os termos de direitos de uso da obra.

Esse esquema que apresenta apenas 15 elementos normalmente chamado de unqualified Dublin Core (Dublin Core no-qualificado). Devido necessidade de descries mais completas para os recursos digitais, foi criado um conjunto de qualificadores, de uso opcional mas interessante. Os qualificadores servem para informar ao usurio como enxergar ou interpretar um valor (contedo) num elemento (campo do metadado). Tambm so usados para aprimorar a semntica do contedo de um elemento. Os qualificadores podem ser usados para refinar o significado de valores dentro dos elementos, mas no para estender qualquer elemento (HANSEN, 1999). Por exemplo, o elemento DATE pode ser usado com o qualificador SCHEME, que define o formato em que a data est sendo escrita, podendo ser, por exemplo, o padro ISO8601, que descreve formatos de data e hora (ver http://www.w3.org/TR/NOTE-datetime).
36

O elemento COVERAGE outro bom candidato ao uso de qualificadores. O qualificador SCHEME poderia especificar que o valor do elemento est em graus, em minutos, em metros ou mesmo que cita um perodo histrico como a Idade Mdia, por exemplo (AD HOC WORKING GROUP, 1997). Descrever o processo criao dos metadados vai alm do escopo deste trabalho. No entanto, vale ressaltar novamente que metadados de qualidade garantem ao usurio utilizador do repositrio maior preciso na busca e maior relevncia dos resultados. Alm disso, apesar de haver vrios padres prontos, a instituio pode escolher como compor o seu prprio esquema de metadados, seja utilizando partes de um padro j definido, seja combinado ou utilizando simultaneamente dois ou mais padres (NSDL, 2005). 3.3 Necessidades de software Uma vez que o objetivo da instituio oferecer acesso via Web, os programas que suportam o repositrio digital de informaes vo necessitar do apoio de um servidor de pginas web. Alm disso, os objetos digitais devem ficar organizados no servidor, o que, devido a quantidade de objetos e informaes associadas a eles, pressupe a necessidade de um servidor de banco de dados. O contato com o usurio por mensagens de e-mail automticas tambm necessita de MTA (mail transport agent) instalado e funcionando adequadamente. O esquema de metadados implementado tambm deve ser compatvel com padres abertos, o que no problema j que tradicionalmente os esquemas de metadados tm como objetivo a
37

padronizao, sendo disponibilizados imediatamente aps o seu desenvolvimento. Em se tratando de repositrios digitais, os metadados costumam ser representados atravs de linguagens de marcao como XML ou SGML, por exemplo. Mesmo o formato MARC 21 estruturado em tags. Para garantir que os dados digitados ou gerados pelo repositrio estejam sintaticamente corretos, aplicativos que realizam a checagem da sintaxe da linguagem de marcao os parsers devero estar presentes no ambiente do repositrio. A indexao dos documentos normalmente feita a partir do texto plano. Por isso, um outra necessidade de software so os conversores dos diversos formatos de arquivo para o formato texto. Existem conversores para os vrios formatos como DOC, XLS, PPT, PDF, HTML etc. O software do repositrio digital dever trabalhar em conjunto com, ou implementar internamente, conversores de documentos para o formato texto, a fim de indexar o texto integral das obras. Dependendo de como o software tenha sido escrito, pode ser necessria a instalao de linguagens de programao ou interpretadores de comando. possvel tambm que o software tenha sido disponibilizado apenas como cdigo-fonte, sendo necessria a presena de compiladores. Em ambiente Linux, isso no costuma ser problema. 3.4 Necessidades de hardware O hardware mais bvio necessrio o servidor onde estar hospedado o repositrio. Sua configurao vai depender da performance do software escolhido mais a quantidade de acessos simultneos que o administrador do repositrio prev.
38

So os objetivos da instituio para o repositrio que definiro os demais itens de hardware. Se a estratgia for digitalizar contedo, ou seja, no incluir na base de dados apenas material que j tenha nascido digital, sero necessrios tambm outros equipamentos e possivelmente outros computadores. Dependendo da quantidade, da origem e da qualidade final desejada para o material a ser digitalizado, o porte e o preo desses equipamentos pode variar. Por exemplo, pode ser desejvel digitalizar muitas pginas, mas com qualidade pequena. Ou digitalizar documentos que estejam em formato de livro e que sejam raros, sendo necessrio muito cuidado em seu manuseio e qualidade de digitalizao para preservar os detalhes. Existem tambm informaes preservadas em discos de vinil, vdeos em VHS, microfilmes etc. A instituio deve considerar tambm a possibilidade de terceirizar esse tipo de trabalho. 3.5 Necessidades de pessoal Quanto ao pessoal, um repositrio digital demanda j antes de estar em funcionamento, equipes de estudo a fim de definir, entre outras coisas, sua poltica de construo do acervo, poltica de acessos, manuteno tcnica, manuteno do contedo em si e participantes do processo de submisso. Nessas equipes tambm interessante incluir os usurios finais, para obter uma perspectiva do funcionamento do repositrio a partir de seu pblico-alvo. Num repositrio em funcionamento, a necessidade de pessoal varia de acordo com as polticas pr-estabelecidas, mas tipicamente os seguintes profissionais seriam necessrios:

39

Administrador de informtica: responsvel pela manuteno da rede, da instalao e configurao do software e por garantir a disponibilidade do repositrio;

Bibliotecrio: responsvel pela qualidade dos metadados, pela divulgao do repositrio em si e de seu contedo, por disseminar a informao de maneira geral, e por manter contato com instituies que podem ser parceiras no processo de troca de itens de acervo;

Autores: responsveis por alimentar de fato o repositrio com contedo. Apesar de no ser necessariamente um profissional, obviamente desempenha um papel fundamental no contexto do repositrio;

Revisores: responsveis por avaliar o trabalho dos autores, sugerir correes ou mesmo negar a incluso de uma obra no repositrio. Devem trabalhar em constante contato com os bibliotecrios a fim de, juntos, seguirem a poltica de construo de acervo. Por exemplo, no caso de trabalhos de concluso de curso, os revisores poderiam ser os orientadores.

Alm disso, caso a estratgia adotada pela instituio seja a digitalizao, so necessrias pessoas que trabalhem suas reas especficas: revisores para conferir se o reconhecimento tico de caracteres aconteceu de forma correta (no caso de texto), profissionais de audiovisual (para obras em udio e vdeo), especialistas em aplicativos 3D (digitalizao de artefatos) e profissionais da rea grfica (digitalizao/correo de imagens).
40

4. APLICATIVOS ANALISADOS
Este captulo trata da anlise das ferramentas de software livre disponveis para suportar a implementao de um repositrio digital. Como todos os aplicativos analisados so livres e possuem interface web, estes dois itens no sero comentados repetidamente, apesar de possivelmente haver comentrios curtos sobre o tipo de licena e como o layout da interface. Os requisitos indispensveis sero analisados um a um. Quanto aos apenas desejveis, sero comentados durante a descrio de cada ferramenta, bem como quaisquer outras particularidades interessantes da ferramenta. Os pr-requisitos de software especficos ao funcionamento do repositrio (servidor Web, banco de dados etc.) so apresentados em uma tabela no Apndice A e por isso no sero citados durante a anlise, a no ser que haja alguma peculiaridade. A descrio dos aplicativos ser realizada, portanto, levando-se em conta os seguintes aspectos (no necessariamente nessa ordem): Histrico do software; Organizao funcional; Formatos de arquivo suportados e de que forma; Opes de navegao pelas colees; Opes de busca; Processo de submisso dos arquivos; o Submisso do arquivo em si; o Incluso dos metadados; Interoperabilidade;

41

o Protocolos de comunicao suportados; o Exportao dos metadados; Interao com o usurio; Documentao.

4.1 Comparao dos aplicativos A Tabela 2 resume a lista de requisitos apresentados at aqui e define o que obrigatrio - o software que no atender nesse sentido ser automaticamente eliminado da lista de opes; Tabela 2 Comparao dos requisitos obrigatrios da instituio com os recursos dos aplicativos analisados.
Necessrio Software livre Interface Web Permitir incluso de mais de um formato de arquivo por obra Fcil utilizao Criao de colees distintas Possibilidades de navegar pelos campos autor, ttulo e ano ou data Busca por autor, ttulo, assunto e palavras-chave Submisso pelo prprio autor Incluso de metadados obedecendo algum padro internacional Importao e exportao de obras/metadados Dspace CDSWare Nou-rau x Greenstone x

=Apresenta funcionalidade; x = no apresenta funcionalidade.

42

Tabela 2 - (continuao) Necessrio Interao com usurio (notificaes por e-mail, informaes na home page) Quantidade satisfatria de documentao DSpace CDSWare Nou-rau x Greenstone x

=Apresenta funcionalidade; x = no apresenta funcionalidade.

A Tabela 3 resume a lista do que apenas desejvel pesa na escolha do software mas no absolutamente necessrio. Tabela 3 Comparao dos itens desejveis para um repositrio digital institucional com os recursos dos aplicativos analisados.
Desejvel No necessitar de plugins na mquina do usurio final Comportamentos diferentes para colees diferentes Interface agradvel e personalizvel Hierarquia entre colees Possibilidades de navegar por vrios ou todos os campos (alm de ttulo, autor e data) Busca complexa combinando campos especficos de metadados e texto-integral Workflow bsico Interoperabilidade automtica com outros sistemas (mesma base ou bases diferentes Permite configurar utilizao de vocabulrios controlados Exportar colees ou partes de colees para consulta local Utilizao de protocolo automatizado de troca de registros Identificadores persistentes Dspace x CDSWare x x x Nou-rau x x x x x x x Greenstone x x x

43

Tabela 3 (Continuao) Desejvel Estatsticas de utilizao Interao estilo portal: usurios cadastrados tm acesso personalizado Dspace CDSWare Nou-rau Greenstone x x

=Apresenta funcionalidade; x = no apresenta funcionalidade.

Os seguintes aplicativos foram descartados antes de uma anlise mais detalhada porque a prpria documentao j demonstrou claramente que no atenderiam aos requisitos indispensveis. Apesar disso, so listados a ttulo de informao, acompanhados do motivo pelo qual foram descartados: GNU/E-Prints (http://www.eprints.org): o objetivo primrio a literatura cinzenta (teses, monografias, relatrios etc.). Permite a incluso de outros tipos de objetos digitais, mas o foco real a literatura cientfica; Open Journal Systems (http://pkp.sfu.ca/ojs/): voltado principalmente publicaes peridicas de modo geral, como revistas por exemplo; Fedora (http://www.fedora.info): por causa do altssimo grau de detalhamento oferecido para os metadados, sua utilizao excessivamente complexa para o tipo de usurio-alvo do repositrio. extremamente flexvel para suportar os mais variados tipos de objetos digitais. At o momento, porm, o software no tem uma interface prpria com o usurio, mas pode ser utilizado como suporte para outras aplicaes.
44

4.2 DSpace O nome completo do software DSpace Institutional Digital Repository System (DSpace que significa Digital Space, ou espao digital Sistema de Repositrio Institucional Digital). O DSpace uma base de dados desenvolvida pelo Massachussets Institute of Technology (MIT) em parceria com a Hewllet-Packard (HP). Atualmente, um software open-source baseado no modelo de licena GPL. Segundo os prprios desenvolvedores, o DSpace captura, distribui e preserva produtos digitais de pesquisa (DSPACE SYSTEM DOCUMENTATION, 2005). Permite armazenar, indexar e recuperar artigos, teses, relatrios, documentos tcnicos, conferncias e outros tipos de material digital em vrios formatos (inclusive udio e vdeo). Os documentos podem ser acessados integralmente a partir da interface web. Apesar de ter sido desenvolvido visando empresas, seu maior uso tem se dado em universidades, para compartilhar produo cientfica. Em termos de desenvolvimento a longo prazo, o DSpace um software interessante por envolver tanto a parceria MIT/HP quanto uma grande comunidade de desenvolvedores. Alm disso, a comunidade que gera acervo tambm grande, haja vista o nmero de instituies (no apenas universidades) nacionais e internacionais que aderiram ao seu uso, e a grande variedade e diversidade de contedo que pode ser armazenado na base. Atualmente, alm do MIT, mais de uma centena de instituies j utilizam o DSpace, inclusive brasileiras (DSPACE INSTANCES, 2006). A idia que motivou o desenvolvimento do DSpace baseia-se nas seguintes premissas:
45

Muito do material que nasceu digital j est perdido; A maior parte do material digital corre riscos; melhor preservar digitalmente que perder completamente; necessrio capturar tanta informao quanto possvel para suportar a preservao funcional; Relao custo/benefcio favorvel. base implementa padres amplamente aceitos

internacionalmente, como o Dublin Core para metadados e o protocolo OAI-PMH para compartilhamento de registros. Atualmente encontra-se disponvel um mdulo para exportao no formato METS. Dessa forma os acervos armazenados no DSpace podem ser exportados e compartilhados tanto entre repositrios DSpace quanto outros repositrios compatveis com o protocolo OAI-PMH. O software est atualmente hospedado no endereo http://www.dspace.org. A estrutura do DSpace a seguinte: Comunidades: So as pessoas que pesquisam ou submetem contedo base; Colees: Agrupamentos de obras semelhantes ou relacionadas, pertencentes a comunidades; Itens: so as obras, ou objetos digitais, em si; o que o usurio normalmente est buscando. Apresentam identificadores persistentes; Bitstreams: Arquivos de computador que compem cada item.

46

Em outras palavras, a base de dados composta por comunidades. Cada comunidade tem suas colees. Essas colees so compostas por itens. Cada item apresenta um ou mais arquivos em formatos variados (PDF, JPG, udio, vdeo etc.), chamados de bitstreams, com o contedo propriamente dito. Cada item tambm apresenta metadados como ttulo, autor, data em que o documento foi aceito, palavras chave, resumo, em quais colees aquele item aparece (um mesmo item pode pertencer a mais de uma coleo de comunidades diferentes), tamanho em bytes de cada bitstream, entre outros. Esses dados podem ser exibidos de forma completa ou resumida. O DSpace apresenta tambm caractersticas de workflow, ou seja, existe um administrador que pode aceitar ou no a submisso de um documento base de dados. Ao se exibir o resultado da busca por determinado item apresentado o identificador persistente, que um endereo de internet baseado no sistema Handle (http://www.handle.net) que garante que aquele item ser sempre encontrado atravs do endereo eletrnico correspondente. A Figura 4.1 mostra a exibio dos metadados bsicos de um item. A primeira informao o identificador persistente. Logo, ao se citar este item em uma referncia bibliogrfica, pode-se usar o identificador http://hd1.handle.net/1721.1/3541 com a certeza de que esse endereo ser sempre referente obra com o ttulo Welfare Implications of User Innovation.

47

Figura 4.1 - Apresentao bsica dos metadados de um item no DSpace

O usurio pode pesquisar diretamente digitando termos ou optar por navegar pelas comunidades e suas respectivas colees, ou ainda navegar por ttulo, autor ou data. Existe tambm a opo de se cadastrar para receber por e-mail as novidades de cada coleo, sempre que itens forem adicionados ou alterados. O software tambm apresenta reas livres a qualquer usurio e reas restritas. S usurios autorizados podem submeter itens ao acervo. Dependendo do acervo, a submisso de um item pode ser livre ou passar por mediadores, que autorizam ou rejeitam a entrada desse item no acervo. Quanto busca, como citado, existe a opo de navegar pelas comunidades/acervos, ttulos, autores e data. Existem tambm a opo de digitar termos para uma busca geral e a opo muito interessante de digitar termos para buscar apenas dentro dos acervos de determinada comunidade. Na Figura 4.2 apresentada a interface de busca do DSpace.

48

Figura 4.2 Interface de busca do DSpace

Segue-se uma explicao das opes da tela apresentada na Figura 4.2: 1. rea para a busca geral em toda a base de dados DSpace. A busca avanada permite que se especifiquem em que campos buscar e combinar essas buscas com os operadores booleanos and, or ou not. Alm disso, permite que se procurem por palavras-chave que, no contexto do DSpace significa busca em texto integral, alm dos metadados; 2. rea que permite navegar pelas comunidades e seus acervos; ou por ttulos, autores ou data. 3. Nome da comunidade corrente (comunidade na qual o usurio est realizando a sua busca. Neste caso, Sloan Working Papers.
49

4. rea em que o usurio cadastra seu e-mail para receber novidades sobre um acervo da comunidade. 5. rea em que os usurios (apenas os autorizados) podem submeter documentos para um acervo da comunidade. 6. rea para a busca especfica, somente na comunidade corrente. Caso o usurio opte por navegar nesta rea, sero exibidos apenas os itens pertencentes comunidade especificada. 7. rea em que so exibidas as submisses mais recentes ao acervo. Nas buscas em que se digitam termos, sejam elas gerais (rea 1) ou especficas por comunidade (rea 6), a pesquisa realizada da seguinte forma: Algumas palavras so ignoradas na busca. Por ser uma base em ingls, algumas delas so: a, and, are, as, to, was etc; O asterisco usado para truncar. Assim, a busca test* deve retornar testando, testes, testamento etc; As palavras tm seu final expandido com os finais mais comuns para recuperar mais resultados (plural, verbo no passado etc.); Frases devem ser delimitadas por aspas; O smbolo (+) adicionado frente de uma palavra indica que ela deve obrigatoriamente aparecer no resultado da busca.

50

Assim, a busca +bibliotecas digitais indica que digitais opcional, mas bibliotecas deve aparecer no resultado; O smbolo (-) usado para negao; Os operadores booleanos (AND, OR ou NOT) so suportados, mas para isso devem ser escritos em caixa alta; Podem-se usar parnteses para combinar grupos estratgias de busca. Por exemplo: (publicidade OR marketing) AND (biblioteca OR centro de informaes). A interface com o usurio simples e funcional. Como pode ser observado nas figuras apresentadas, o acesso a cada funo facilmente visvel e intuitivo. O layout agradvel, aparentemente no representando um empecilho ao usurio final. H farta documentao disponvel, tanto oficial quanto nos fruns, listas de discusso e artigos, apesar de a maioria ser em ingls. O prprio site disponibiliza documentao que abrange diversas etapas do processo de implementao do repositrio, como por exemplo viso geral, instalao, administrao, personalizao e divulgao, entre outros. Alm disso h vrios projetos de terceiros em andamento apresentados no site oficial. A pgina que trata desses projetos foi atualizada ainda neste ano e alguns dos projetos bem sucedidos apresentados foram incorporados ao DSpace, o que indica que h uma comunidade atuante e que o desenvolvimento constante. O software servidor tambm pode ser instalado em ambiente Windows, o que apesar de no ser encorajado por este autor nem ser o
51

foco principal da equipe de desenvolvimento do DSpace, pode vir a pesar na escolha de instituies com ambientes de informtica heterogneos. Apenas uma ressalva: a documentao oficial afirma que o Tomcat 5.x pode ser executado com o Java SDK 1.4 ou 1.5+, mas no especifica que necessrio um pacote de compatibilidade para a verso 1.4, o que pode causar problemas no momento da instalao. 4.3 CDSWare Este software foi desenvolvido pela CERN, a Organizao Internacional Europia para Pesquisa Nuclear e est disponvel no endereo http://cdsware.cern.ch/cdsware/download.html. Segundo (PEPE, 2005), o CDSWare : um conjunto de aplicativos que proporciona um ambiente e ferramentas para construir e gerenciar um servidor de biblioteca digital autnomo...apresenta um arquitetura modular e extensvel . Cada mdulo uma entidade independente que incorpora um aspecto especfico do fluxo de trabalho de uma biblioteca digital . O software organizado de forma que seus diversos mdulos interajam entre si e com as camadas de armazenamento (banco de dados) e de interface (pgina web). Os documentos so organizados dentro de colees que podem ser estruturadas pelo administrador do sistema como rvores reais ou virtuais para facilitar a navegao. A submisso feita pelo usurio e, a partir de ento, o documento passa por um processo de workflow que pode incluir

52

reviso e aceitao ou no. No momento da submisso, o usurio deve informar a qual coleo o item pertence. Todos os formatos de arquivo podem ser submetidos pelos usurios autorizados, tanto por e-mail quanto pela interface web, e o modo como esses arquivos sero exibidos personalizvel, a fim de que o software comporte-se de formas diferentes de acordo com o tipo de coleo. possvel definir o tamanho mximo e mnimo de arquivo a ser adicionado obra. A busca realizada atravs de um mecanismo com sintaxe semelhante do Google e pode combinar busca nos metadados com busca por texto integral. Alm da ordenao por freqncia de palavras que permite recuperar registros similares, includo um mtodo de ranking baseado em valores especficos de metadados. Tambm existe um mdulo de indexao e ranking que permite classificar os resultados da busca pelo nmero de citaes ou mesmo de downloads. A interface de busca personalizvel e j foi traduzida para 13 lnguas, entre elas o portugus. A busca pode ser simples ou avanada e os resultados podem ser agrupados por coleo. Usurios autorizados podem submeter obras por e-mail ou pela interface Web. Os usurios tambm podem criar cestas de documentos com o resultado de suas pesquisas e compartilhar essas cestas entre grupos de usurios, alm de fazer comentrios sobre documentos no repositrio de forma semelhante que acontece em sites que vendem livros ou CDs como o Amazon.com, por exemplo. Os metadados adicionados so convertidos automaticamente para o formato de armazenamento interno do software, que o MARC 21. O
53

MARC foi adotado por ser j um padro bem estabelecido entre as bibliotecas, por integrar-se bem s linguagens de marcao como o XML, ser flexvel o suficiente para durar por bastante tempo e adaptvel a praticamente qualquer tipo de estrutura de metadados (PEPE, 2005). O MARCXML, recentemente padronizado pela Library of Congress, utilizado pelo CDSWare. O esquema de metadados MARCXML pode ser utilizado em sua totalidade ou em pequenos conjuntos de elemento especficos, de acordo com a necessidade da instituio. Geralmente, quanto mais homognea for a coleo, menor a quantidade de campos de metadados a utilizar. Os metadados podem ser adquiridos de maneira automtica (OAIPMH). Todos os metadados includos no servidor so transformados para o formato nativo do CDSWare antes de ficarem disponveis. Um dos mdulos encarrega-se de fazer a traduo entre o formato nativo e outros formatos como o Dublin Core, METS ou MARC 21, no momento da exportao. No contexto da OAI, o CDSWare pode atuar tanto como provedor de dados quanto de servios e capacitado a fazer e atender requisies atravs do protocolo OAI-PMH. Por oferecer uma ampla gama de recursos, a instalao e configurao mais complexa que o DSpace, por exemplo. No entanto, esse esforo requerido do administrador e no do usurio final. A relao custo x benefcio acaba sendo favorvel, uma vez que a dificuldade inicial compensada com a grande flexibilidade de utilizao da ferramenta. O software pode, portanto, ser utilizado tanto como uma soluo genrica de gerenciamento de documentos quanto como um sistema de
54

biblioteca digital ou um repositrio institucional que visa atender a acervos de mdio a grande porte (PEPE, 2005). A documentao farta, abrangendo vises gerais e aprofundadas do sistema, apesar de haver um erro na documentao oficial quanto instalao que informa que o WML (Website Meta Language) 2.0.9 apresenta problemas de compatibilidade com o Linux Red Hat 9, quando na verdade o 2.0.8. Tambm h partes do sistema que s existem na documentao, ou seja, ainda no foram completamente desenvolvidas, mas constam na documentao (por exemplo, http://cdsware.cern.ch:8000/admin/websession/guide.html, que trata do mdulo de administrao via Web), ou ainda partes do sistema para as quais a documentao no foi completada. 4.4 Nou-rau O Nou-rau foi desenvolvido pelo Instituto Vale do Futuro em parceria com o Centro de Computao da Unicamp, distribudo sob a licena GPL e est disponvel para download em http://www.rautu.unicamp.br/nou-rau/. O software tem por objetivo implementar um sistema online para arquivamento e indexao de documentos, provendo acesso controlado e mecanismos eficientes para busca (NOU-RAU, 2006 ). Ainda segundo (NOU-RAU, 2006), as metas do software Nou-Rau so: Armazenar qualquer tipo de documento; Manter informaes bsicas (sempre) e especficas (quando necessrio) sobre cada documento;
55

Permitir pesquisa tanto nos metadados quanto em texto integral; Permitir que se adicione ao acervo apenas o que for autorizado; Possibilitar a verificao de vrus externa.

A organizao funcional do Nou-rau a seguinte: Documentos: so arquivos submetidos ao sistema, alm de seus metadados. Os documentos so armazenados e, em alguns casos, comprimidos internamente ao sistema, sendo retornados em sua forma original no momento da consulta do usurio; Tpicos: so agrupamentos documentos relacionados por assunto especfico. Para cada tpico h um responsvel por seu gerenciamento. Os tpicos podem ser organizados hierarquicamente; Categorias: so tipos de documentos vlidos. Assim, podese definir que para determinado tpico, apenas documentos de determinadas categorias sejam aceitos. O tamanho mximo do documento tambm pode ser limitado, conforme sua categoria; Formatos: Cada categoria aceita um ou mais formatos de arquivo. Podem-se definir formatos alm dos mais comuns, j predefinidos pelo sistema (DOC, PDF, MP3 etc.);

56

tambm podem ser criados grupos de formatos (por exemplo, Todos os tipos de audio). Alm do software bsico necessrio, para indexar o contedo dos documentos, preciso instalar conversores adicionais para cada formato (DOC, PDF, TEX etc.). O mecanismo de busca implementado atravs da ferramenta ht://Dig. ela que faz a indexao dos documentos a partir de informaes mandadas pelo Nou-rau. Atualmente os seguintes formatos de arquivos so suportados: ASCII , HTML, RTF, SGML, WML, XML, documentos do Word, Excell e Powerpoint, PDF, Postscript, TeX, LaTeX e DVI. No ambiente do Nou-rau, o usurio pode assumir um (ou vrios) dos seguintes papis: Visitante: acessa o repositrio apenas para consultar; Colaborador: pode submeter documentos ao repositrio, tornando-se o dono desses documentos; Responsvel: administra os tpicos, inclusive aprovando ou no os documentos submetidos; Administrador: est hierarquicamente acima dos outros usurios, cuidando da manuteno do sistema, criao de tpicos, manuteno das categorias e formatos de documentos, bem como associando usurios s suas respectivas tarefas.

57

O processo de submisso de um documento envolve o upload por parte de um colaborador, a avaliao do responsvel pelo tpico e a possvel verificao de vrus pelo administrador. Se um documento no aprovado em qualquer dessas etapas, ele apagado da base de dados, sendo enviado um aviso ao colaborador que submeteu o documento. A busca pode ser realizada tanto nos metadados quanto no texto integral das obras (desde que tenham sido indexadas), mas no possvel definir que se quer buscar apenas em um elemento dos metadados como o ttulo, por exemplo. A interface do Nou-rau assemelha-se um pouco do DSpace, sendo tambm de fcil utilizao e bem organizada e tem uma vantagem: no preciso trabalhar em sua traduo para comear a utilizar. O sistema Nou-rau no oferece muita documentao. No momento em que este trabalho foi realizado, havia no site oficial apenas duas pginas, uma apresentando uma viso geral do sistema e outra onde eram disponibilizados o software em si e programas adicionais para download, bem como links para trs listas de discusso anncios, desenvolvimento e usurios em geral. Alm disso, na pgina de anncios de novidades, a ltima notcia foi dada em 21/01/2004, liberando a verso beta3 que ainda a disponvel para download no site, o que pode indicar que, apesar de ser uma ferramenta interessante, no h interesse em levar adiante o desenvolvimento do sistema ou que, mesmo se houver, um processo mais lento que o de outros aplicativos analisados, nos quais h grandes equipes envolvidas.

58

4.5 Greenstone Segundo (GREENSTONE, 2006), o Greenstone um software que visa construir e distribuir colees de bibliotecas digitais. Foi desenvolvido e distribudo pelo Projeto Biblioteca Digital Nova Zelndia, na universidade de Waikato, em parceria com a UNESCO e a Human Info NGO, da Blgica, e disponibilizado sob a licena GPL no endereo http://greenstone.sourceforge.net. O ambiente de utilizao divide-se em duas interfaces: uma para o usurio, disponvel atravs do browser, e outra para o bibliotecrio. A disponvel para o bibliotecrio uma interface grfica baseada em Java, cujo objetivo coletar itens para o acervo, adicionar metadados, projetar as funcionalidades de navegao e pesquisa que a coleo vai oferecer para o usurio final e finalmente construir e disponibilizar a coleo. A construo de colees tambm possvel a partir da interface de administrao, que uma interface web com menos funcionalidades que a interface Java. Dentre os padres de metadados comentados neste trabalho, o Dublin Core nativamente suportado. No entanto, possvel adicionar novos padres atravs de plugins, como por exemplo MARC e METS. Esses plugins tambm podem ser usados para submeter documentos. Para documentos textuais, h plugins que oferecem suporte a arquivos dos tipos PDF, PostScript, Word, RTF, HTML, texto puro, LaTeX, arquivos ZIP, Excel, Power Point, vrios formatos de e-mail e cdigo fonte. Para documentos multimdia h plugins para diversos formatos de imagem (incluindo os mais populares), MP3, Ogg Vorbis e um plugin genrico que pode ser configurado para outros formatos de udio e vdeo.
59

H extensa documentao em ingls, incluindo exerccios tutoriais com exemplos completos sobre como construir uma coleo a partir do zero. A submisso feita atravs da interface do bibliotecrio que inclui sees para coletar os documentos (a partir da web ou localmente), definir os metadados para cada documento adicionado, selecionar opes da coleo (que documentos vai suportar, quais sero os ndices etc.) e finalmente gerar a coleo e torn-la disponvel na interface web do usurio. Duas caractersticas que distinguem o Greenstone dos outros aplicativos analisados so a possibilidade de funcionamento em vrios sistemas operacionais (inclusive no UNIX-like, como Windows e MACOSX) e a exportao de colees para navegao local em CD-ROM, por exemplo. 4.6 Escolha do software O esquema de metadados escolhido para representar os objetos digitais na instituio em questo foi o Dublin Core. Os principais motivos para a escolha foram: O nvel de detalhamento dos metadados da instituio no precisa ser muito aprofundado; Utilizao simples, o que facilita o treinamento de profissionais das mais diversas reas; o padro bsico para troca de informaes via OAI (NSDL, 2005).

60

A utilizao do padro METS de metadados foi levada em conta. No entanto, apesar de ser timo para o profissional da informao pode ser complexo demais para outros usurios. Mesmo os bibliotecrios precisariam de um treinamento maior que o necessrio utilizao do Dublin Core, principalmente no que diz respeito aos mapas estruturais do METS. O Greenstone e o Nou-rau foram eliminados por no atender a todos os requisitos bsicos. Alm disso, o Greenstone tem a particularidade de a interface do bibliotecrio ser um programa em Java, no executado diretamente via browser, alm de no proporcionar qualquer interao com o usurio. Mesmo a submisso inicial do documento teria que ser feita pelo bibliotecrio. Na instituio em questo, isso geraria uma demanda impossvel de atender. J o Nou-rau apresenta pouca documentao tcnica. Por exemplo, no h nada comentado sobre a sua compatibilidade com a OAI. No entanto, num boletim publicado pelo Sistema de Bibliotecas da Unicamp em 11 de julho de 2005 o software j passou a ser compatvel (SBU, 2005). Entretanto, a verso mais recente disponvel para download data de 21 de janeiro de 2004. Alm disso, os links para listas de discusso sobre o Nou-rau no esto disponveis. Outro ponto contra o No Nou-rau que cada obra pode conter apenas um arquivo associado. No seria possvel, portanto, armazenar uma miniatura de uma imagem para ser visualizada no browser junto com a imagem mestre para ser baixada e trabalhada no computador do usurio, por exemplo. Por outro lado, uma vantagem do Nou-rau a grande quantidade de obras em portugus j disponveis nas diversas instncias j
61

instaladas, uma vez que vrias instituies de ensino superior brasileiras o adotaram como plataforma para a biblioteca digital. Restaram, portanto, o DSpace e o CDSWare, ambos atendendo a todos os requisitos indispensveis da instituio. Os grandes destaques do CDSWare so o seu poderoso mecanismo de busca, muito semelhante ao Google, e a diversidade de opes de interao com o usurio. J o DSpace apresenta como vantagens um desenvolvimento constante, a utilizao nativa de identificadores persistentes baseados no sistema Handle, um nmero muito maior de empresas e universidades que j o utilizam em ambiente de produo e vrias fontes de documentao como artigos, projetos e listas de discusso. Como desvantagem, um sistema de busca relativamente simples em relao ao CDSWare, mas que no simples em si mesmo. Considerando o usurio alvo, no entanto, o poder do mecanismo do CDSWare atualmente seria subutilizado. Alm disso, o DSpace est em constante desenvolvimento. A busca por texto integral, por exemplo, no existia em verses anteriores recentes, mas j foi implementada. Atualmente h trabalhos no sentido de exportar registros em outros formatos de metadados que no o Dublin Core. Alm disso, repositrios Greenstone exportam nativamente colees para o DSpace, independente da implementao do protocolo OAI-PMH. Considerando tambm que, a partir da tabela de requisitos da instituio, o DSpace apresenta mais recursos, esse software foi escolhido como a melhor opo.

62

5. A IMPLANTAO

DO

REPOSITRIO

A partir do momento da escolha do software foi iniciado um estudo sobre a sua aplicao. Como essa fase de estudos ainda continua, vrias mudanas devem ocorrer, mas a situao atual descrita nas sees a seguir. 5.1 Poltica de construo e organizao do acervo As seguintes colees vo ser criadas inicialmente, com a hierarquia apresentada: Materiais das disciplinas Disciplina (uma coleo para cada disciplina) Trabalhos de concluso de curso Internos Curso (uma coleo para cada curso) Externos Eventos cientficos Memria histrica (composta principalmente por imagens) Revistas & Artigos Acta cientfica (revista da instituio) Artigos em geral (artigos publicados ou no) Academia de arte A estrutura do DSpace adequa-se perfeitamente configurao das colees da forma apresentada, j que permite a hierarquia entre colees
63

em mltiplos nveis. A princpio, apenas materiais j em formato digital sero incorporados base. No entanto, h obras raras que podem ser consideradas para digitalizao posteriormente. Alm disso, se algum autor desejar realizar a digitalizao por conta prpria, nada o impede de fazer isso. Apenas a biblioteca no dever participar do processo. S os arquivos de contedo principalmente textual, imagens, programas e combinaes destes sero armazenados (aqui esto includos apresentaes, planilhas, animaes etc.). Entre os programas, apenas os que acompanharem alguma obra como um trabalho de concluso de curso de computao, por exemplo, ou que tenha sido desenvolvido por algum professor para auxiliar em sua disciplina. Programas que podem ser baixados pela internet no precisam ser armazenados novamente. provvel que mais frente sejam criadas colees que atendam aos setores da instituio; considerando o setor de marketing, por exemplo, sero ento armazenados tambm os arquivos-fonte de cartazes, logotipos, papis timbrados etc. A Academia de Arte (ACARTE), que j est sendo includa, deve armazenar letras de msicas, arquivos em formato MID, arquivos do software Finale (para criao musical) e imagens com partituras digitalizadas, ficando a cargo da prpria ACARTE a digitalizao. No sero armazenados arquivos de vdeo por causa do grande consumo de espao em disco que eles geram, bem como consumo de banda no momento do download. Alm disso, j existe um departamento responsvel pelo armazenamento e distribuio dos materiais em vdeo produzidos ou adquiridos pela instituio, inclusive os digitais.

64

Para todo formato de documento, deve ser indicado na descrio da obra o tipo de software que pode ser utilizado para sua leitura. Assim, o usurio final no tem que descobrir sozinho que programa poder utilizar para abrir um documento. Trabalhos acadmicos que os professores acharem interessante armazenar podem ser includos na coleo da disciplina de aplicao do trabalho. No DSpace, um item pode aparecer em mais de uma coleo, mas sempre vai pertencer a apenas uma. No caso de obras multidisciplinares, o bibliotecrio e o responsvel por autorizar a submisso do trabalho ao repositrio definiro a qual coleo a obra deve pertencer e em quais outras deve aparecer. Uma observao importante que apenas materiais sem restries quanto a direitos autorais devero ser armazenados. Uma vez que o objetivo disseminar informao de forma gratuita, no faria sentido cobrar pelo acesso. Sendo assim, no possvel no momento que a instituio arque com os custos de obras com direitos autorais. A poltica de construo e organizao de um acervo est em constante mudana, tanto numa biblioteca convencional quanto numa digital. Portanto, como j foi citado, a descrio apresentada aqui serve apenas como base inicial para a implantao do repositrio, devendo ser alterada durante o funcionamento do mesmo. certeza que ela deve sofrer mudanas e provvel que nunca haja uma base definitiva. Uma parte importante da organizao de um acervo definir padro para nomes de autores e ttulos. O Dublin Core define a sintaxe dos metadados, ficando a critrio do catalogador inserir os dados em si. Por exemplo, o autor Jos de Alencar pode ser cadastrado no DSpace
65

como Jos de Alencar ou Alencar, Jos. Outro exemplo: duas edies de uma mesma obra devem ser objetos no repositrio ou um s objeto com dois arquivos associados? Foi definido que para preencher alguns dos elementos do Dublin Core, como o biblioteca convencional da instituio. O DSpace oferece tambm a possibilidade de preencher alguns elementos do Dublin Core atravs de listas de opes pr-definidas por arquivos de configurao. Atualmente estuda-se a necessidade da utilizao dessa possibilidade quanto aos assuntos das obras. A dvida se esse controle realmente ajuda na recuperao da informao ou se apenas desacelera o processo de submisso. Numa biblioteca convencional, listas de assuntos padronizadas eram importantes porque durante a consulta o usurio no estava diante da obra para ver seu contedo. No ambiente DSpace, a busca por texto integral possvel. Mesmo assim, o uso de palavras-chave fortemente encorajado. No entanto, vocabulrios controlados podem no ser absolutamente necessrios no contexto da instituio. Por outro lado, limitando-se os termos permitidos, aumenta-se a preciso. Esta etapa ainda est sob estudos. Como foi citado anteriormente, o uso de vocabulrios controlados tambm pode ser implementado em nvel operacional, independendo do software portanto. 5.2 Polticas de acesso do interesse da instituio implementar o acesso aberto ao pblico em geral, de modo a incentivar a disseminao da produo
66

CREATOR ou o TITLE, sero

utilizadas as regras do padro AACR2, j amplamente utilizadas na

acadmica. No DSpace, qualquer usurio pode fazer seu cadastro e subscrever-se para receber atualizaes sobre as suas colees de interesse. J autores interessados em submeter obras ao repositrio devero entrar em contato com a instituio tanto para adequar-se aos procedimentos de submisso quanto para garantir que as obras submetidas ao repositrio no acarretem nenhum nus a quem quer que as utilize a partir do repositrio, nem prpria instituio. Quanto aos trabalhos de concluso de curso especificamente, os alunos sero autorizados a submeter os seus trabalhos e os orientadores ficaro responsveis por fazer a reviso e permitiro ou no a incluso na base de dados. Um terceiro passo ser a conferncia dos metadados pelo bibliotecrio, que no pode alterar o contedo da obra nem rejeitar sua submisso, mas pode alterar os metadados. O mesmo serve para a coleo Materiais de Disciplinas, em que haver um professor ou mais professores responsveis por administrar a coleo da disciplina, exceto porque a interferncia do bibliotecrio no ser necessria neste caso. O DSpace facilita todo esse processo por implementar caractersticas bsicas de workflow, criar usurios com acessos diferenciados e permitir utilizao de perfis para grupos de usurios. 5.3 Definio dos padres de formato e nomenclatura Considerando o tipo de acervo pretendido na fase inicial, os arquivos acrescentados ao acervo devem ser basicamente de dois tipos: PDF, para arquivos de texto, apresentaes, planilhas eletrnicas etc. Isso para garantir que o documento tenha a mesma aparncia do original de onde foi gerado. O autor tem a opo de acrescentar
67

tambm os arquivos fonte, mas preciso que se adicione pelo menos um arquivo PDF com o trabalho em sua forma integral; Arquivos de imagem digitalizados devem ser armazenados preferencialmente em formato JPEG, sendo opcional o armazenamento tambm da imagem em formato TIFF, que no oferece compresso, preservando maiores detalhes da imagem. Atravs dos arquivos de configurao, o DSpace permite que se opte por visualizar no browser uma miniatura da imagem atravs dos mediafilters, que so aplicaes que trabalham a partir do contedo de determinados documentos indexando texto e gerando miniaturas de imagens, por exemplo. Quanto nomenclatura dos arquivos submetidos, deixado ao autor escolher a que lhe agradar mais, uma vez que o usurio pode modificar esse nome no momento de fazer o download. Alm disso, como os arquivos so armazenados internamente na base do DSpace, no existe a preocupao com duplicidade de nomes. Mesmo na fase de exportao, cada item exportado pelo DSpace colocado, com seus arquivos e metadados, numa estrutura de um diretrio para cada item. 5.4 Questes sobre preservao digital O objetivo desta seo principalmente levantar questionamentos sobre a questo da preservao de objetos digitais e citar alguns dos desafios que devem ser considerados quando se pensa em repositrios digitais de informao com armazenamento a longo prazo. Segundo

68

(WATERS, 1996), e concordando com (LC21, 2004), so os seguintes os principais problemas da preservao de objetos digitais a longo prazo: Obsolescncia tecnolgica: as mdias para armazenamento digital podem ser frgeis e ter vida til limitada mesmo sob condies ideais. Replicar contedos em outras mdias possvel, mas gera custos. Alm disso, o material produzido pode ser dependente de hardware e software que no estaro disponveis indefinidamente; Migrao da informao digital: manter a informao digital atualizada em termos de mdia e software, a migrao, gasta tempo e tende a apresentar erros, alm de ser um processo mais complexo do que manter verses antigas de hardware e software; Questes legais e organizacionais: h vrios tipos de licenas de direitos autorais para os diferentes tipos de obras produzidas. Tambm difcil garantir que uma obra que pertena a uma coleo restrita atualmente continue restrita caso ocorra uma atualizao/mudana de software. Tambm h riscos de a organizao perder informaes que se comprometeu a guardar ou no conseguir manter a sua integridade; Necessidade de grande infraestrutura: a infraestrutura citada aqui no se trata apenas da tecnolgica, mas sim de uma srie de conceitos que ainda esto indefinidos ou pobremente definidos. Como o mundo digital ainda novo se comparado ao registro de informao em papel, por
69

exemplo, existem muitas incertezas com as quais ainda no possvel lidar facilmente. Quanto preservao digital, no DSpace h trs status que um arquivo pode assumir (DSPACE SYSTEM DOCUMENTATION, 2005): Suportado: o tipo de arquivo conhecido e a instituio garante que ser possvel visualizar seu contedo a longo prazo; Conhecido: a instituio reconhece e armazena o tipo de arquivo, pretende obter informaes suficientes para transform-lo para o status de suportado; Desconhecido: a instituio no reconhece o tipo de arquivo, mas mesmo assim compromete-se a preserv-lo. Claro, isso no representa soluo, apenas uma ferramenta bsica para tentar posicionar a instituio quanto aos formatos de arquivos presentes na base de dados. Cada biblioteca busca suas prprias solues e, at o momento, h apenas estratgias mais ou menos adequadas a cada caso. Como concluso, (WATERS, 1966) apresenta o seguinte: A principal frente de defesa contra a perda de material digital diretamente com os autores ou organizaes onde a obra foi produzida; Um ponto crtico da infraestrutura de preservao a existncia de mltiplas instituies de confiana capazes de armazenar, migrar e disponibilizar material digital;

70

preciso criar mecanismos de certificao para os repositrios digitais para gerar um ambiente confivel.

(PADI, 2006) oferece algumas estratgias para a preservao digital a longo prazo, alm das j citadas: Padres: a instituio deve utilizar padres abertos e j bem estabelecidos em vez de formatos proprietrios; Emulao: reproduo de ambientes de software e hardware que traduzam cdigo de um sistema de computao para outro; Encapsulamento: como parte da estratgia de emulao, objetos e seus metadados armazenados juntos para ajudar na renderizao do objeto posteriormente; Metadados de preservao: metadados que descrevam os requisitos para a visualizao do objeto digital posteriormente. Mais uma vez, a idia aqui apenas levantar questes para reflexo. Uma anlise mais profunda da instituio, do contedo que ela deseja armazenar, do tipo de usurio que possui, enfim, de todo o contexto em que o repositrio digital estar inserido necessria antes de estabelecer quaisquer procedimentos e deve-se manter em mente que, devido relativa imaturidade da produo de obras puramente em meio digital, esses procedimentos certamente devero ser reavaliados com freqncia.

71

5.5 Dificuldades encontradas A instalao e configurao dos aplicativos que servem de plataforma para um repositrio digital de informaes relativamente simples, no apresentando maiores problemas para o administrador de rede. No DSpace o processo de criao das colees to ou mais simples que os outros aplicativos analisados. De todos, o Greenstone que apresenta a interface mais complexa para criao de colees. Durante a realizao deste trabalho, os principais problemas tcnicos decorreram de erros na documentao dos aplicativos mais do que na instalao em si. A grande dificuldade realmente elaborar o contexto em que o repositrio de informaes vai ser inserido, bem como definir o nvel de descrio desejado para os objetos digitais. Questes como que tipo de material dever ser armazenado e por quanto tempo, qual o formato e nomenclatura dos arquivos, quem ter acesso e a que partes do sistema, como agrupar as pessoas e obras na estrutura do repositrio, entre outras, formam as partes mais difceis do processo dessa implantao. Apesar da dificuldade, s a partir desse levantamento preliminar, ainda que normalmente muito sujeito a mudanas, possvel realizar a anlise direcionada dos aplicativos disponveis e finalmente chegar a uma escolha consciente de um software que possa atender s necessidades da instituio no contexto da implantao do repositrio.

72

6. CONCLUSO

E PROJETOS FUTUROS

A partir do levantamento dos requisitos da instituio e da anlise dos principais aplicativos atualmente disponveis, este autor conclui que existe software livre em quantidade e qualidade suficientes para atender s necessidades de diversos tipos de instituies quanto aos repositrios digitais de informao. Segundo (BARTON, 2005), so vrios os motivos que levam as pessoas a utilizar os repositrios institucionais. Entre elas: Comunicao entre universidades; Armazenamento de materiais de aprendizado; Publicao eletrnica; Gerenciar colees de documentos de pesquisa; Preservar materiais a longo prazo; Hospedar contedo digitalizado;

A anlise de alguns dos aplicativos disponveis demonstrou que para qualquer dessas necessidades, j existem ferramentas em plenas condies de utilizao. Alm disso, a filosofia do software livre e a organizao modular do sistema operacional GNU/LINUX permitem que novas funcionalidades sejam implementadas, seja atravs do desenvolvimento colaborativo das comunidades de usurios de cada software, seja pela combinao de vrias ferramentas existentes a fim de atingir determinado objetivo. Quanto ao futuro, ainda durante a implantao efetiva do repositrio digital sero estudadas as estratgias mais eficientes de

73

backup dos dados. Como qualquer sistema que envolva informaes importantes, em caso de falha de hardware, software ou mesmo no caso de um upgrade na plataforma do repositrio, necessrio ter cpias de segurana do contedo da base de dados. Alm disso, atualmente existe um servidor utilizado para ensino distncia que funciona em conjunto com um sistema de alta disponibilidade. Ser estudada a possibilidade de fazer o mesmo com o servidor do repositrio, de forma a garantir que este esteja em funcionamento e protegido contra falhas durante o maior tempo possvel.

74

REFERNCIAS

BIBLIOGRFICAS

AD HOC WORKING GROUP. Dublin Core Element: COVERAGE. Disponvel em <http://www.alexandria.ucsb.edu/publicdocuments/metadata/dc_coverage.html>. Acesso em: 06 abr. 2006 ALVARENGA, Ldia. Representao do conhecimento na perspectiva da Cincia da informao em tempo e espaos digitais. Revista eletrnica de biblioteconomia e cincia da informao. n. 15, 2003. Disponvel em: <http://www.encontrosbibli.ufsc.br/Edicao_15/alvarenga_representacao.pdf >. Acesso em: 13 mar. 2006. BARTON, Mary R. Creating an institutional repository: LEADIRS workbook. 2006 BERGMAN, Michael K. The deep web: surfacing hidden value. The Journal of Electronic Publishing, v.7, n.1, Ago. 2001. Disponvel em <http://www.press.umich.edu/jep/07-01/bergman.html>. Acesso em: 14 abr. 2006. BRANTON, Ann; CHEN-GAFFEY, Aiping. MARC 21 Tutorial. University of Southern Mississippi; Slippery Rock University, 2004. Disponvel em Cambridge : MIT Libraries, 2005. Disponvel em <http://www.DSpace.org/implement/leadirs.pdf>. Acesso em: 12 abr.

75

<http://www.lib.usm.edu/~techserv/pdc/marc21_tutorial_ie/marcintroIE.h tm>. Acesso em: 06 abr. 2006 COLE, Timothy W. Creating a Framework of Guidance for Building Good Digital Collections. First Monday Journal, v.7, n..5. maio de 2002 Disponvel em <http://firstmonday.org/issues/issue7_5/cole/index.html>. Acesso em: 12 abr. 2006. DCMI. Dublin Core Metadata Element Set version 1.1: reference description. Dublin Core Metadata Initiative, 2004. Disponvel em <http://dublincore.org/documents/dces/>. Acesso em 06 abr. 2006. DSPACE INSTANCES. Cambridge : Massachusetts Institute of Technology; Palo Alto : Hewlett-Packard Company, 2005. Disponvel em: <http://wiki.DSpace.org/DSpaceInstances> . Acesso em: 14 abr. 2006. DSPACE SYSTEM DOCUMENTATION. Cambridge : Massachusetts Institute of Technology; Palo Alto : Hewlett-Packard Company, 2005. Disponvel em: <http://DSpace.org/technology/system-docs> . Acesso em: 14 abr. 2006. EDUCADVENTISTA.ORG. Nossa histria. Disponvel em:

<http://www.educadventista.org.br/index.php?option=com_content&task =view&id=13&Itemid=39>. Acesso em: 15 abr. 2006. FURLAN, Jos Davi; IVO, Ivonildo da Motta. Megatendncias da tecnologia da informao. So Paulo : Makron Books, 1993.

76

GARTNER, Richard. METS: Metadata Encoding and Transmission Standard. Oxford University Library Services, 2002. Disponvel em <http://www.jisc.ac.uk/uploaded_documents/tsw_02-05.pdf>. Acesso em: 08 abr. 2006. GORMAN, Michael (coord.); WINKLER, Paul W. (coord). Cdigo de Catalogao Anglo-Americano Segunda Edio. The American Library Association, 1983. GREENSTONE. The Greenstone digital library software. Disponvel em <http://www.greenstone.org>. Acesso em 28 mar. 2006. HANSEN, Preben. User Guidelines for Dublin Core Creation. Nordic Metadata 2006 KNIGHT, Gareth. An introduction to metadata requirements for an eprint repository. SHERPA Arts & Humanities Data Service, 2004. Disponvel em <http://www.sherpa.ac.uk/documents/D26_Report_on_Metadata_Issues.pdf >. Acesso em: 14 abr. 2006. LC21: A digital strategy for the Library of Congress. Washington : National Academy Press, 2004. Disponvel em <http://books.nap.edu/catalog/9940.html>. Acesso em: 06 mar. 2006. Project, 1999. Disponvel em: <http://www.sics.se/~preben/DC/DC_guide.html>. Acesso em: 07 abr.

77

LIBRARY OF CONGRESS. MARC Standards. The Library of Congress Network Development and MARC Standards Office, 2005. Disponvel em <http://www.loc.gov/marc/>. Acesso em: 15 abr. 2006. LIBRARY OF CONGRESS. METS: Introduo e tutorial. Washington : The Library of Congress, 2005. Disponvel em <http://www.loc.gov/standards/mets/METSOverview.v2_port.html>. Acesso em: 10 mar. 2006. LIBRARY OF CONGRESS HELP DESK. Understanding MARC Bibliographic. Washington : The Library of Congress, 2003. Disponvel em <http://www.loc.gov/marc/umb/um01to06.html>. Acesso em: 09 mar. 2006. LYNCH, Clifford. Institutional repositories: essential infrastructure for scholarship in the digital age. ARL Bimonthly Report, n. 226, fev. 2003. Disponvel em: <http://www.arl.org/newsltr/226/ir.html>. Acesso em: 11 mar. 2006. NELSON, Michael L. et al. mod_oai: An Apache module for metadata harvesting. Norfolk : Old Dominion University; Los Alamos : Los Alamos 2006. NISO (National Information Standards Organization). Understading Metadata Bethesda : NISO Press, 2004. Disponvel em National Laboratory, 2004 Disponvel em <http://arxiv.org/ftp/cs/papers/0503/0503069.pdf>. Acesso em: 12 abr.

78

<http://www.niso.org/standards/resources/UnderstandingMetadata.pdf>. Acesso em: 08 mar. 2006 NOERR, Peter. The Digital Library Toolkit. 3.ed. Sun Microsystems, 2003. Disponvel em <http://www.sun.com/products-nsolutions/edu/whitepapers/digitaltoolkit.html >. Acesso em: 06 mar. 2006 NOU-RAU. Descrio do Nou-Rau. Unicamp; Instituto Vale do Futuro. Disponvel em <http://www.rau-tu.unicamp.br/nou-rau/desc-pt.html> Acesso em: 11 mar. 2006. NSDL. OAI Best Practices. The National Science Digital Library, 2005. Disponvel em <http://oai-best.comm.nsdl.org/cgibin/wiki.pl?MultipleMetadataFormats>. Acesso em: 14 abr. 2006. OAI (Open Archives Initiative). The Open Archives Initiative Protocol for Metadata Harvesting. 2004. Disponvel em <tttp://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm>. Acesso em: 14 abr. 2006. OPEN ARCHIVES FORUM. OAI For Beginners. University of Bath, 2003. 2006. PADI (Preserving Access to Digital Information). Digital preservation strategies. National Library of Australia. Disponvel em http://www.nla.gov.au/padi/topics/18.html>. Acesso em : 12 abr. 2006. Disponvel em <http://www.oaforum.org/tutorial/english/intro.htm>. Acesso em: 29 mar.

79

PEPE, A et al. CERN Document Server Software: the integrated digital library. 2006 PRASAD, A.R.D.; GUHA, Nabonita. Interoperability and the OAI-PMH. Bangalore : DRTC-HP International Workshop on Building Digital Libraries with DSpace, 2005. Disponvel em <https://drtc.isibang.ac.in/handle/1849/245>. Acesso em: 08 abr. 2006. RFC2046: Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types. The Internet Engineering Task Force, 1996. Disponvel em: <http://www.ietf.org/rfc/rfc2046.txt> . Acesso em: 15 abr. 2006. SBU. Biblioteca digital de teses da UNICAMP, a maior do Brasil. Sistema de Bibliotecas da UNICAMP, 2005 Disponvel em <http://143.106.108.14/BoletimSBU/2005/julho/noticias/libdigi.php>. Acesso em: 15 abr. 2006 UNASP. O UNASP Histrico. Centro Universitrio Adventista de So Paulo, 2006. Disponvel em: <http://www.unasp.edu.br/o-unasphistorico.html>. Acesso em 15 abr. 2006. W3C. Overview of SGML Resources. World Wide Web Consortium, 2004. Disponvel em <http://www.w3.org/MarkUp/SGML/>. Acesso em: 15 abr. 2006. CERN : Geneva, 2005. Disponvel em <http://cdsware.cern.ch/cdsware/doc/elpub2005.pdf>. Acesso em: 06 abr.

80

W3C. Extensible Markup Language (XML). World Wide Web Consortium, 2006. Disponvel em < http://www.w3.org/XML/>. Acesso em: 15 abr. 2006. WATERS, Donald; GARRET, John.. Preserving Digital Information: Report of the Task Force on Archiving of Digital Information. Washington 06 abr. 2006. : 1996. Disponvel em <http://www.rlg.org/legacy/ftpd/pub/archtf/final-report.pdf>. Acesso em

81

APNDICE A A tabela a seguir apresenta os aplicativos analisados e os programas necessrios ao seu funcionamento
Banco de dados PostgreSQL ou Oracle

Aplicativo DSpace

Verso Sist. Op. 1.3.2 UNIX-like Windows

Serv. Web Adicionais Apache Tomcat Apache Ant Java SDK

Greenstone 2.70

UNIX-like Windows MAC-OSX

Apache

- PERL - Java SDK - Plugins para padres de metadados e formatos de arquivos adicionais

GDBM (GNU Database Manager)

Nou-rau

beta 3

UNIX-like

Apache

- PHP - FILE - HTDIG - PERL - Conversores de formatos de arquivos (para indexao fulltext)

PostgreSQL

82

Aplicativo

Verso Sist. Op.

Serv. Web Adicionais

Banco de dados

CDSWare

0.7.1

UNIX-like

Apache

- Python - PHP - WML - Parsers para XMLMARC (opcional) - Gnuplot (recomendado) Implementao de Commom MySQL LISP (CLISP, SBCL ou CMUCL. (recomendado) - Conversores de formatos de arquivos (para indexao fulltext)

83

Das könnte Ihnen auch gefallen