La conservacin y utilizacin de textos en el futuro inmediato: ADMYTE, el archivo digital de
manuscritos y textos espaoles
Author(s): Francisco Marcos Marn and Charles B. Faulhaber Source: Hispania, Vol. 75, No. 4, The Quincentennial of the Columbian Era (Oct., 1992), pp. 1010-1023 Published by: American Association of Teachers of Spanish and Portuguese Stable URL: http://www.jstor.org/stable/343869 . Accessed: 19/12/2013 05:15 Your use of the JSTOR archive indicates your acceptance of the Terms & Conditions of Use, available at . http://www.jstor.org/page/info/about/policies/terms.jsp . JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact support@jstor.org. . American Association of Teachers of Spanish and Portuguese is collaborating with JSTOR to digitize, preserve and extend access to Hispania. http://www.jstor.org This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions Francisco Marcos Marin, U. Aut6noma de Madrid, Sociedad Estatal del Quinto Centenario Charles B. Faulhaber, University of California-Berkeley La conservacion y utilizaci6n de textos en el futuro inmediato: ADMYTE, el archivo digital de manuscritos y textos espanioles I NDI CE DESCRI PCI ON GENERAL 1010 Volumen 0 1011 Volimenes 1... n 1011 I nstituciones Participantes 1012 DI GI TALI ZACI ON Y TRATAMI ENTO DE I MA- GENES: MANUSCRI TOS E I NCUNABLES 1012 Obtenci6n de positivos fotogrificos 1013 Digitalizaci6n de imigenes 1014 Procesos de tratamiento de imigenes 1014 Reducci6n y cambio de colores a blanco y negro 1014 Tratamiento de las iluminaciones e ilustraciones 1015 Transcripci6n de los textos 1015 Transcripci6n electr6nica de incunables castellanos 1015 ANTECEDENTES 1015 BETA: Bibliograffa de Textos Espahioles 1016 DOSL: DI CTI ONARY OF THE OLD SPANI SH LANGUAGE 1017 UNI TE 1018 TACT 1021 CLARI TY-CD 1022 CONCLUSI ON 1022 BI BLI OGRAFI A SUMARI A 1023 DESCRI PCI ON GENERAL La preservaci6n del patrimonio cultural es una de las principales preocupaciones de los pueblos modemos. Los libros, especialmente los mis antiguos, manuscritos e incunables, por su rareza y por las vicisitudes que han sufrido en su exis- tencia, estin expuestos a graves peligros. Espa- fia, a lo largo de su historia, ha perdido incluso bibliotecas magnfficas, como la de Hemando Col6n, que hoy seria sin duda la mejor biblioteca rominica medieval del mundo y que se fue destruyendo simplemente por incuria e ignoran- cia. Pero no basta con conservar, tambi6n es nece- sario que esas obras cumplan su funci6n al servi- cio de los lectores, del pdblico culto interesado, en general. Para ello seria preciso ponerlas a disposici6n de 6ste, lo que inevitablemente aca- rrearfa su deterioro y hasta su destrucci6n, lenta- mente. Por fortuna, la tecnologia actual nos permite cumplir el objetivo de poner a disposici6n de los estudiosos de distintos campos toda la literatura castellana medieval, entendiendo de modo am- plio el t6rmino "literatura," como colecci6n de los textos escritos, e incluso afiadir a ello unos instrumentos de trabajo, que ya existen o estain en muy avanzado desarrollo, con los cuales los investigadores podrin realizar su labor en condi- ciones de total seguridad para las obras que estudian y de m~aximo rigor cientifico, junto con una comodidad de que han carecido hasta ahora. Para ello, la Sociedad Estatal para la Ejecu- ci6n de Programas del Quinto Centenario, en el Area de I ndustrias de la Lengua, y la empresa MI CRONET, S.A., de amplia y reconocida ex- periencia en el campo del almacenamiento y recuperaci6n de informaci6n en CD-ROM o disco laser (t6rmino que iremos introduciendo a partir de este momento), con la colaboraci6n de las universidades Aut6noma y Complutense de Madrid (Espaiia), de California en Berkeley (EEUU), de Wisconsin (Madison, EEUU) y de Toronto (Canada) y de distintas bibliotecas y entidades puiblicas y privadas, realizan conjun- tamente el proyecto ADMYTE, Archivo Digi- tal de Manuscritos y Textos Espafioles. ADMYTE, que se presentara como una co- lecci6n de discos laser de tipo CD-ROM, en la versi6n mas modema que la t6cnica pueda ofre- cer en este tiempo, y que podri ser utilizado por This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANOLES 1011 los investigadores que dispongan de un sencillo ordenador personal, tipo MS-DOS, un monitor VGA y una lectora de discos laser, se dividira en dos series de desigual extensi6n: la primera esta- ra constituida por un solo disco, el disco 0, o dis- co instrumental, destinado a los investigadores con requisitos mas complejos, mientras que la segunda, de los discos 1...n, estard destinada al ptiblico mas amplio, que incluye, naturalmente, a los propios investigadores. He aquf la estructu- ra general de la colecci6n: Volumen 0: BETA/BOOST. Bibliografia Espafiola de Textos Antiguos. Base bibliogrifica con mis de cuatrocientos cincuenta campos y once tablas, interactiva. (Colaboraci6n de la Universidad de California en Berke- ley y la Universidad Complutense de Madrid. Este proyecto cuenta con el apoyo del National Endowment for the Humanities y, parcialmente, de I BM USA y de I BM Espafia.) FORM-LEX. Diccionario de lemas y formas, elemento del Diccionario del Espahol Antiguo (DOSL). (Colaboraci6n con el Hispanic Seminary of Medieval Studies de la Universidad de Madison, Wisconsin, EEUU. Este proyecto cuenta con el apoyo del National Endow- ment for the Humanities.) TACT. Programa de recuperaci6n de informaci6n tex- tual con sistema de creaci6n de la propia base de datos textual. (Colaboraci6n con la Universidad de Toronto en Canada. Este proyecto cuenta con el apoyo del Centre for Computing in the Humanities, CCH, de la Universidad de Toronto, y, parcialmente, de I BM Canada Ltd.) TEXTOS-MAD. Colecci6n de Textos Medievales, cedidos por el Hispanic Seminary of Medieval Studies. (Colaboraci6n con la Universidad de Wisconsin-Madi- son, EE.UU., proyecto que se realiza con la ayuda del National Endowment for the Humanities.) UNI TE. Conjunto de programas para la construcci6n de ediciones criticas automatizadas. (Colaboraci6n con la Universidad Aut6noma de Madrid. Este proyecto ha contado con el apoyo de I BM Espafia, I BM Deutschland, EUROTRA-Espafia y, especialmente, la Alexander von Humboldt Stiftung.) Volumenes 1 ... n: Textos transcritos en c6digo ASCI I , con marcas o membretes estandarizados. I migenes (facsimiles de textos en blanco y negro y reproducci6n en color de miniaturas). CLARI TY-CD, programa de MI CRONET, S.A. para la recuperaci6n de textos e imigenes de alta resoluci6n, desde CD-ROM. La propuesta de ADMYTE parte de esa nece- sidad primera de conservaci6n del patrimonio escrito y, ademis, de la conciencia de que se ha producido un cambio en los mrtodos de trabajo de los investigadores. El ordenador es ya un instrumento generalizado entre los humanistas e insustituible para algunas funciones, como el manejo y selecci6n de la inabarcable bibliograffa o de la mayor riqueza de datos disponibles. Al aumento del caudal informativo corresponde ineludiblemente el desarrollo de nuevas t6cnicas para abarcarlo y asimilarlo. Por esta raz6n, los investigadores que reali- zan ADMYTE son conscientes de que es el momento de desarrollar sus investigaciones complementarias, hasta ahora parciales, en bus- ca de una sintesis que retna experiencia y cono- cimientos para constituir un nuevo tipo de vademecum de este momento tecnol6gico, un vademecum informatizado para el investigador de la Edad Media y el Humanismo. Los procedimientos de trabajo perfecciona- dos y reunidos no s61lo sirven para ser aplicados a la lengua o la literatura del antiguo reino de Castilla y Le6n, y su expansi6n peninsular, sino para las distintas lenguas, no s61lo hispainicas o rominicas, sino de cualquier lugar del mundo. Lo mismo debe decirse de los procedimientos t6cnicos desarrollados para la digitalizaci6n de manuscritos o la transcripci6n automditica de incunables: estarain a la disposici6n de investiga- dores de cualquier lengua y cualquier pals o etapa hist6rica. Todo ello nos lleva a un proyecto basado en la lengua espafiola, pero realizado por un equipo internacional e interdisciplinario, en la medida de lo necesario. Los investigadores participantes tienen entre sf, a veces, diferencias significati- vas; pero en lo que afecta a esta investigaci6n, todos convergen en un mismo punto o, mejor, en tres puntos que resumen sendas series de re- sultados: 1. Completar y desarrollar instrumentos concretos de investigaci6n que constituyen un sistema experto de tratamiento textual y recuperaci6n de informaci6n contenida en todo tipo de textos. 2. Presentaci6n de un modelo aplicable, en principio, al espafiol medieval; pero expandible a otras 6pocas y otras lenguas con suma facilidad. 3. Recuperaci6n del patrimonio cultural espafiol a travis de la localizaci6n, catalogaci6n, preservaci6n y estudio de una parcela fundamental del pasado hist6rico como son los textos medievales y sus soportes, manuscritos e incunables. En el piano trcnico, ADMYTE serviri para realizar, conjuntamente con la Biblioteca Na- cional, en el disco 1, y con otras bibliotecas en discos sucesivos, un trabajo de conservaci6n de manuscritos e impresos antiguos a travis de su This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions 1012 HI SPANI A 75 OCTOBER 1992 digitalizaci6n y el tratamiento de la imagen y para desarrollar procedimientos de transcripci6n electr6nica (lectura 6ptica) de incunables desde microfilme. La investigaci6n servira tambien para perfec- cionar los instrumentos de trabajo ya existentes, ampliando UNI TE para el tratamiento de todo tipo de textos en verso y en prosa, potenciando la recogida de materiales para lograr hacer de BETA/BOOST un inventario exhaustivo con unos procedimientos de comunicaci6n entre el lector y la base de datos que sean c6modos para el usuario y poniendo al alcance del investi- gador materiales y t6cnicas que no son posibles sobre papel. Es preciso sefialar las consecuencias de un proyecto de tal envergadura. Para empezar, po- drfamos llevar el estudio de la cultura espaiola a cualquier lugar del mundo, lejos de las grandes bibliotecas, por el m6dico precio de un disco laser. En segundo lugar, cabe recordar que la inclusi6n de facsimiles limitari sobremanera el uso de los originales, con el consiguiente benefi- cio que esto supondri para una mejor conserva- ci6n de los mismos. En tercer lugar, debe notar- se que Espafia sera precursora en el uso de una tecnologia que no tardarin en aplicar los estu- diosos de otras lenguas y periodos hist6ricos. Finalmente, las tecnicas de tratamiento de imai- genes, desarrolladas originariamente para mejo- rar las fotografias obtenidas desde los sat6lites espaciales, permitirin que el estudioso "restau- re" los manuscritos de modo electr6nico y que, asi, podamos recuperar un enorme conjunto de textos que hoy consideramos ilegibles. I nstituciones Participantes Sigue a continuaci6n una brevisima descrip- ci6n de las instituciones participantes al inicio del proyecto, centrada en su experiencia previa en el desarrollo de proyectos como ADMYTE y en su capacidad de gesti6n de los instrumentos necesarios para su desarrollo. La Biblioteca Nacional de Espafia: no s61o contiene la mejor colecci6n de manuscritos e incunables espafioles, sino que dispone de un competente equipo de profesionales e instalaciones adecuadas para colaborar en la investigaci6n, facilitando la posibilidad de instalar una parte del equipo y de realizar los trabajos de digitalizaci6n de imagen y de aplicaci6n de lectores 6pticos a los textos microfilmados de los incunables. La Universidad Aut6noma de Madrid: alberga al equipo madrilefio del proyecto EUROTRA de la Comunidad Econ6mica Europea, el Centro Cientifico UAM-I BM y el I nstituto de I ngenieria del Conocimiento, tambien en colaboraci6n con I BM. Es el centro eje del proyecto UNI TE de comparaci6n automrnitica y ediciones criticas por ordenador, uno de los integrados en ADMYTE. La University de California-Berkeley: es uno de los centros nucleares de BETA/BOOST, otro de los pro- yectos que se integran en el actual, ademis de poseer un competente equipo tecnico en los sectores de aplicaci6n de la informaitica a las necesidades de los humanistas y en el desarrollo de sistemas. La Universidad Complutense de Madrid: es el se- gundo de los centros que albergan a BETA/BOOST, ademrs de participar en DEA/DOSL. La Sociedad Ltda. Hispanic Seminary of Medieval Studies: es el organismo editor y recolector de textos medievales espafioles en soporte no convencional mis amplio de los actuales. Realiza tambien una labor con- tinua de edici6n en papel. Bajo sus auspicios se desarrolla el Dictionary of the Old Spanish Language (DEAiDOSL), tambien integrado, parcialmente, en ADMYTE. Aporta su experiencia en la aplicaci6n de ordenadores a la conservaci6n y tratamiento de textos espafioles asif como sus realizaciones en la edici6n y reproducci6n de textos medievales en soporte de celu- loide y magnetico. La Universidad de Toronto: es la sede del CCH, Centre for Computing in the Humanities, que es uno de los mais prestigiosos del mundo. Uno de los productos del CCH, el sistema de recuperaci6n de informaci6n textual y de creaci6n y especificaci6n de bases de datos textuales, TACT, esti incluido en ADMYTE, con modificaciones especificas de esta colecci6n. MI CRONET, S.A.: es una empresaprivada especializada en almacenamiento y recuperaci6n de la informaci6n en disco laser CD-ROM. En su haber hay que sefialar la edici6n en CD-ROM de bases de datos del CSI C, Consejo Superior de I nvestigaciones Cientifficas, y del I SBN espaiiol. Para el proceso de recuperaci6n de informaci6n ha desarrollado una base de datos muy conocida, KNOSYS. Para ADMYTE contribuye con una versi6n de CLARI TY-CD, un programaespecifico pararecuperar informaci6n de textos e imigenes desde CD-ROM. DI GI TALI ZACI ON Y TRATAMI ENTO DE I MAGENES: MANUSCRI TOS E I N- CUNABLES Las t6cnicas que empezaron a ser desarrolla- das por los t6cnicos de la Agencia Espacial norteamericana, la NASA, en los afios setenta, comercializadas poco despues, y que permiten la conversi6n de una imagen en un patr6n digital, se aplican ya desde hace tiempo a los estudios de ciencias naturales y biol6gicas, y han pasado a los humanisticos. Con el crecimiento de los tiltimos aiLos en las capacidades de memoria de los ordenadores y el aumento de las posibilidades de almacenar estos grandes ficheros que resultan de la digitalizaci6n, esta trcnica se ha ido acercando al usuario, hasta que el disco 6ptico ha permitido un abaratamien- This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANOLES 1013 to definitivo de los costos y la posibilidad de que los individuos se beneficien de ello en la investi- gaci6n personal. La digitalizaci6n de los manuscritos e in- cunables castellanos refine dos ventajas esencia- les: preserva el patrimonio bibliogrifico espafiol y pone a disposici6n de los estudiosos reproduc- ciones que, debido a las posibilidades de la electr6nica, ofrecen imaigenes mas nitidas y faci- litan por ello el trabajo del investigador. La colaboraci6n de la Biblioteca Nacional en este proceso resulta fundamental, porque garan- tiza que podri realizarse con la maxima seguri- dad y sin dafho alguno para los ejemplares digitalizados. ADMYTE incorpora los textos digitalizados, que el estudioso puede reproducir c6modamente mediante una simple impresora laser estaindar, con lo que se convierte en el primer elenco completo de una 6poca para una lengua moderna. Es conveniente sefialar que la digitalizaci6n puede realizarse a travis de imagenes fotogrifi- cas, lo que ademas permite mejorar las condicio- nes de lectura de los manuscritos, mediante el uso de los auxiliares mais oportunos (luz ultravioleta e infrarroja, por ejemplo). La primera parte de este servicio no es desconocida de la Biblioteca Nacional y tanto la Bibliotheque Nationale de Paris como la British Library poseen experiencia mas que suficiente sobre estos procedimientos. La novedad seri la posibilidad de ofrecer una reproducci6n digitalizada, ademas de las formas habituales de fotocopia y microfilme, la primera de las cuales es notoriamente dafiina para los libros o documentos cuando se aplica directa- mente y sera sustituida por la reproducci6n laser, que asegura una mayor calidad. Obtenci6n de positivos fotograificos La naturaleza y estado actual de los textos originales que es necesario digitalizar ha obliga- do a trabajar con una t6cnica mixta, uniendo procesos fotogrlficos y electr6nicos. Dada la extrema delicadeza de algunos originales, ha sido necesario preparar un sistema para poder obtener la maxima informaci6n posible de cada pagina de cada documento, con el manipulado mis corto posible, sin contacto fisico y sin expo- sici6n a temperaturas elevadas o radiaciones perjudiciales. Despubs de muchas pruebas y ensayos con distintos materiales y distintos sistemas de digitalizaci6n, se lleg6 a la conclusi6n de que era necesariorealizarunpasoprevio aladigitalizaci6n de las paiginas: la obtenci6n de originales foto- grificos. El paso a imagenes digitalizadas a partir de soportes en celuloide no es novedad: se aplica ya con 6xito en historia del arte y en documentaci6n en general. El desarrollo de la t6cnica para esta aplicaci6n concreta de biblioteconomfa supon- dra un avance notable en el servicio de bibliote- cas, al conseguirse, entre otras, las siguientes ventajas: 1. No existe contacto ffsico con el documento. 2. El documento esti fuera de su ubicaci6n habitual el tiempo mais corto posible, facilitaindose asi la custodia adecuada de todos los originales. 3. Los documentos se exponen a la luz durante un periodo de tiempo extremadamente corto (aproxi- madamente 15 segundos por pigina). 4. No hay cambios bruscos en la temperatura o humedad de conservaci6n. 5. No es necesario forzar la encuadernaci6n, ya que no es preciso abrir totalmente los vol6imenes. 6. Los procesos de digitalizaci6n se realizan sobre imi- genes fotogrificas, lo que nos permite la obtenci6n de las imigenes electr6nicas digitales posteriormente y sin presencia de los originales. 7. Es posible realizar exploraciones multiples digitales y diversos procesos en piginas muy degradadas sin volver a procesar las piginas originales. 8. Se obtiene un respaldo complementario de los docu- mentos, ya que proporciona un archivo fotogrifico en color, de gran calidad, que puede ser utilizado por la Biblioteca Nacional para otros trabajos posteriores. 9. Es posible aumentar la legibilidad de algunos docu- mentos muy deteriorados, ya que mediante combinacio- nes de luz, filtros y emulsiones sensibiliza-das de forma especial, se pueden obtener resultados mejores que con otras tecnicas. Despues de decidir la t6cnica que se va a utilizar, hemos llevado a cabo un proceso de selecci6n del material fotogrifico, que nos ha hecho utili- zar una pelicula reversible de color en formato 24 x 36 mm., de grano ultrafino, y una resolu- ci6n y rendimiento a los colores muy superiores a los requeridos en los procesos posteriores de digitalizaci6n. Las c6.maras utilizadas son capa- ces de garantizar la exposici6n correcta de cada pagina de forma automatica, mediante un siste- ma de medici6n de luz a travis del objetivo capaz de evaluar diferentes zonas del encuadre selec- cionado. El arrastre de la pelicula es automitico y se puede realizar un enfoque autom~itico de cada pigina antes de cada toma. Tambirn ha sido necesario preparar iftiles especiales para sostener todo el material necesa- This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions 1014 HI SPANI A 75 OCTOBER 1992 rio mientras trabaja simultaineamente, con los elementos de iluminaci6n necesarios y los so- portes de los originales. Para ello se construy6 un atril especial capaz de soportar las dos cima- ras y todos los elementos bisicos para asegurar la realizaci6n de las diapositivas en condiciones 6ptimas. De esta forma se pueden fotografiar al mismo tiempo las dos paiginas de un libro abier- to, en el minimo tiempo posible y sin forzar la encuademaci6n del mismo. Se ha disefiado un proceso de clasificaci6n de originales (una vez reveladas las diapositivas y comprobada su calidad) para poder realizar se- guidamente los procesos de digitalizaci6n. Digitalizaci6n de imaigenes La digitalizaci6n de las imaigenes fotogrificas de las paiginas de los libros constituye el puente entre los procesos fotogrificos e informditicos utilizados en el proyecto ADMYTE. Para realizar correctamente el paso de digitalizaci6n se ha recurrido a digitalizadores o "scanners" de diapositivas de alta calidad, de muy elevada resoluci6n (4.096 puntos por pul- gada, 3.850 x 5.800 puntos en cada diapositiva) y capaces de diferenciar 16.777.216 colores (24 bit por punto, 8 por cada color RGB). Suponiendo que la imagen que se va a digitalizar ocupara toda la superficie de la diapo- sitiva y trabajando a la mitad de la resoluci6n maxima del digitalizador, obtendriamos una imagen de 1.925 x 2.900 puntos, con 3 octetos o bytes (24 bit) por punto, lo que supone ocupar 16'75 Mb. de informaci6n por cada paigina. Aunque los requerimientos finales del proyecto no incluian imaigenes de tan elevada resoluci6n, ha parecido conveniente almacenar las imaigenes originales con esta calidad por varias razones: * Permite realizar procesos de correcci6n de color y reducci6n de la imagen sin perdidas apreciables de calidad. * Proporciona un almacenamiento inalterable en disco 6ptico que permite la realizaci6n posterior de otros proyectos y trabajos de investigaci6n. * Hace posible crear una base de datos con imfigenes de alta definici6n en la Biblioteca Nacional sin volver a "tocar" los textos originales. Para realizar el almacenamiento de estas im- aigenes ha sido necesario desarrollar nuevos algoritmos de compresi6n de imigenes en color, basados en procesos matemiticos que utilizan la transformada ripida de Fourier. Estos sistemas especiales de compresi6n, sin p6rdida de cali- dad, han permitido reducir la ocupaci6n de cada imagen en color a s61lo 800.000 octetos. Los procesos de compresi6n son imprescindibles para construir un archivo manejable en disco 6ptico WORM, ya que de esta forma podemos almacenar 1.100 imaigenes en cada disco de 940 Mb., junto con la informaci6n necesaria para su localizaci6n y datos relativos a la diapositiva original. Procesos de tratamiento de imaigenes La mayor parte de las imaigenes que se in- cluirfin en los discos compactos (CD-ROM) se- ran en blanco y negro, por lo que podemos realizar procesos especiales de tratamiento enca- minados a aumentar su legibilidad. La digitalizaci6n en color nos permite modificar determinados tonos, realizar procesos digitales de filtrado, etc., previos a la reducci6n de las imagenes a blanco y negro. Los sistemas de proceso de imagenes emplea- dos permiten hacer mas legibles los documentos eliminando o reduciendo las manchas de hume- dad, el tono amarillento, las agresiones naturales, etc. El estado de los distintos documentos hace que aproximadamente el 95 por ciento de los mismos se pueda tratar completamente con pro- cesos globales, que afectan a todo el documento, mediante programas preparados especialmente para este fin. El 5 por ciento restante debe tratarse con procesos electr6nicos manuales y, a veces seleccionando finicamente la zona afectada del documento, con un tiempo de ocupaci6n de personal muy calificado elevadisimo. Los procesos de tratamiento de imaigenes incluyen sistemas estadisticos de reducci6n de colores a su valor medio, de control zonal de tonos, de sustituci6n de colores y puntos, de realce de contornos y contrastes, etc., con los que se obtienen resultados espectaculares al aclarar los fondos y oscurecer las tintas. Reduccion y cambio de colores a blanco y negro Los procesos de las imigenes concluyen con su paso a blanco y negro y su reducci6n al equivalente a 150 puntos por pulgada (lo que permite obtener una copia impresa de calidad). Durante este proceso es necesario realizar una conversi6n de los colores seglin unas ciertas normas, imprescindibles para mantener la legibilidad en los textos no escritos con tintas This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANOLES 1015 negras (rojo, azul, etc.) y en las ilustraciones. Durante las comprobaciones que se I levan a cabo con los ficheros resultantes se realizan copias en papel mediante impresora de tecnolo- gia LASER. Una vez corroborada su calidad, se procede a su compresi6n segun normas CCI TT Grupo I V y su almacenado, con una ocupaci6n media de 39 Kb. Tratamiento de las iluminaciones e ilus- traciones En algunas paiginas existen ilustraciones en color o iluminaciones con distinto grado de deta- lile. La reproducci6n adecuada de estas paiginas requiere tratamientos especiales, puesto que se han de incluir en los discos CD-ROM conservan- do el color original. En la mayor parte de los casos dnicamente se trabaja con la zona que contiene la ilustraci6n (de forma ampliada), con lo que se aumenta la posibilidad de apreciar ficilmente cada detalle. Se han creado para el tratamiento de estas imaigenes en color programas especiales que permiten realizar los procesos de correcci6n de forma interactiva, es decir, viendo directamente en la pantalla los resultados obtenidos con las modificaciones. Transcripci6n de los textos La transcripci6n de los textos se realiza sola- mente en caso de imposibilidad de utilizar una transcripci6n existente, ya sea por no correspon- der a la misma edici6n de la obra o bien por no poder obtener los permisos necesarios para su uso. Realiza la transcripci6n un equipo de especia- listas que utiliza herramientas informiticas ade- cuadas, las cuales permiten generar las graffas especiales necesarias para poder realizar una transcripci6n paleogrifica correcta. En esta fase del proyecto se utiliza la impresora lhiser para obtener copias de los documentos que se han procesado siguiendo los pasos anteriores y que sirven ademais para realizar en el texto las indicaciones que se utilizarin mais adelante, en el producto resultante del proyecto, para marcar el comienzo y fin de cada pigina. La transcripci6n de los textos se beneficiari, ademis de la cooperaci6n de todos los investiga- dores que deseen ceder sus transcripciones en forma electr6nica, de la posibilidad de leer 6pti- camente textos editados y textos mecanografia- dos, con ello reduciremos notablemente la necesidad de teclear los textos para la introduc- ci6n de los datos en forma electr6nica y mejorarn sensiblemente la calidad de los textos ASCI I incluidos en los discos, por la correcci6n de las ediciones o transcripciones mecanicas leidas electr6nicamente. Es innegable que la calidad del texto transcrito es un requisito esencial en ADMYTE. Transcripci6n electr6nica de incunables castellanos Los lectores 6pticos o scanners se han perfec- cionado tanto en los iiltimos afios que hoy en dia son utilizados comercialmente por su elevado grado de fiabilidad. Aunque la exactitud de la lectura no es total, es innegable que los resulta- dos son ya tan satisfactorios que puede pensarse con seriedad en la inmediata desaparici6n de la transcripci6n manual de obras impresas en 6poca modema. Los primeros textos impresos, los incunables, parecen estar lejos, aparentemente al menos, de la nitidez y limpieza de tipos necesaria para una lectura electr6nica y la posterior y automitica digitalizaci6n. Sin embargo, el estudio detenido de muchos de los conservados nos lleva a supo- ner que podria realizarse un intento de transcrip- ci6n electr6nica a trav6s de scanner. Para ello no es preciso someter a los in- cunables a un penoso proceso de reproducci6n digital, que harfa sufrir sus encuademaciones y los podria deteriorar. La t6cnica que se quiere desarrollar no es directamente a partir del texto impreso, lo que podria suponer un daiio para el ejemplar, sino de la reproducci6n fotogrifica de 6ste. La aplicaci6n de t6cnicas ilamadas OCR (op- tical character recognition) o reconocimiento 6ptico de caracteres no es esencial para ADMYTE. ANTECEDENTES Este apartado estai dedicado a exponer con un minimo detalle las investigaciones previas sobre los distintos aspectos lingilisticos, filol6gicos y documentales que abarca el Archivo Digital, especialmente las que han sido realizadas por los participantes. Este material de trabajo para dis- tintos especialistas (bibliotecarios, fil6logos, editores, documentalistas, lingilistas) se presen- tari en el disco 0, aunque podni aplicarse a los contenidos de cualquier disco. Como puede advertirse, en la mayor parte de los casos, los This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions 1016 HI SPANI A 75 OCTOBER 1992 proyectos de mayor envergadura realizados has- ta la fecha corresponden precisamente a los in- vestigadores reunidos en el actual intento. BETA: Bibliografia de Textos Espaiioles Una de las labores mais urgentes que debe acometer un pais con una rica tradici6n cultural es la de catalogar y preservar los testimonios que reflejan su pasado; 6sta es tambi6n una de las tareas principales para los especialistas en la Edad Media espafiola. Nuestra experiencia en el campo de los manuscritos medievales y de los libros incunables nos ha llevado a recordar una y otra vez la necesidad de esta labor: desconoce- mos la existencia de numerosos libros espaioles medievales custodiados en bibliotecas plibli- cas y privadas de todo el mundo (hemos de recordar que la mayor parte de las bibliotecas espafiolas, y entre ellas las mais importantes, como la Nacional, Palacio, Real Academia Espa- fiola, Colombina de Sevilla o Universitaria de Salamanca, no disponen auin de catdilogos com- pletos); muchos de nuestros manuscritos sufren un fuerte deterioro y estain amenazados por di- versos peligros (es especialmente grave el pro- blema de las tintas corrosivas, aunque no deben olvidarse otros elementos: el propio paso del tiempo, incendios, inundaciones, mutilaciones, aplicaci6n de reactivos, polillas u hongos); final- mente, es preciso sefialar que, a pesar de la legislaci6n en defensa del patrimonio nacional, son muchos los c6dices e impresos que escapan al control del Estado por desconocer su existen- cia (disponemos de abundantes y escandalosos ejemplos dentro y fuera de Espafia). BETA, o BETA/BOOST, siglas inglesas originales de la Bibliography of Old Spanish Texts pretende so- lucionar gran parte de estos problemas. BETA/BOOST es un catdilogo general de fuentes primarias-impresas y manuscritas--de textos espaiioles medievales escritos en cas- tellano o en cualquiera de sus dialectos. Por ahora, nuestro campo de acci6n se ha limitado fundamentalmente a textos literarios, sin dejar de lado las obras de cardicter hist6rico, legal, cientifico o religioso, ya que el hombre de la Edad Media las consideraba tambi6n literatura (ademis, se trata de un enorme corpus de gran importancia para fil6logos e historiadores). Por el momento, s61o hemos prescindido del docu- mento puro (de caricter notarial, generalmente), cuya inclusi6n habria requerido un esfuerzo adicional que superaria con mucho nuestras fuerzas (un catilogo general de documentos me- dievales resulta imposible de hacer en este mo- mento, pues constaria de muchos cientos de miles de entradas recogidas en innumerables centros). Nuestro proyecto no comenz6 con ADMY- TE: BETA/BOOST era el titil basico de que dis- ponia el Seminary of Medieval Spanish Studies de la Universidad de Wisconsin en Madison (que dirige John Nitti y en la que han trabajado Char- les Faulhaber y Angel G6mez Moreno, ahora en la Universidad de California en Berkeley y en la Universidad Complutense de Madrid, respecti- vamente) para la creaci6n de su Dictionary ofthe Old Spanish Language. Pronto se comprob6 su utilidad como catilogo colectivo de manuscritos e impresos medievales y, por tanto, su gran valor para historiadores, fil6logos, libreros, bibliote- carios y otros especialistas. Por ello, son muchos los estudiosos que han colaborado en BETA/ BOOST desde su primera edici6n (de 966 fichas, aparecida en 1975) hasta la tercera (de 3.378 fichas, publicada en 1984). En este momento, Faulhaber y G6mez Moreno han incorporado mis de 2.000 nuevas fichas al banco de datos y se cree que BETA/BOOST4 contari con unas 10.000 referencias en el momento de su publica- ci6n (proyectada para 1992). Pero, como sucede con otros trabajos prepa- rados en la Universidad de Wisconsin, el inter6s cientifico de BETA/BOOST radica tambi6n en el uso y desarrollo de nuevas tecnologias en el campo de los studia humanitatis (algunos de los miembros del equipo internacional que colabora en BETA/BOOST son consejeros en proyectos desarrollados con ayuda de ordenadores). Una de las grandes novedades de BETA/BOOST es el programa de que nos servimos para el manejo de la base de datos. Desde hace dos afios, y gracias a una ayuda de I BM para una demostra- ci6n a SS.MM. Don Juan Carlos y Dofia Sofia, disponemos de un sistema de relaci6n de datos ("Advanced Revelation") que funciona en un ordenador del tipo del PS/2 de I BM; este nuevo sistema, dentro de ADMYTE, permitiri preparar no s61lo la cuarta edici6n impresa sino ademis una primera edici6n en forma magn6tica. Mien- tras el acceso a los datos de la edici6n impresa tiene que limitarse, por fuerza, a los indices normales (onomistico, de materias, etc.), el ac- ceso a la versi6n informatizada ofrece miltiples posibilidades al usuario. Elnuevo sistemapermi- te la btisqueda de informaci6n a trav6s de mis de 450 elementos combinados con los que el usua- rio acttia interactivamente desde once tablas que se le presentan en un mend integrado inicial. This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANOLES 1017 Para ADMYTE, BETA supondri tambi6n la ampliaci6n de la catalogaci6n de textos antiguos mediante los siguientes trabajos complementa- rios: 1. Revisi6n de los fondos de la Biblioteca Colombina y Capitular de Sevilla. 2. Revisi6n de los fondos de la Biblioteca Universitaria de Salamanca. 3. Revisi6n de los fondos de la Biblioteca Nacional de Lisboa. 4. Revisi6n de los fondos de la Torre do Tombo en Lisboa. 5. Revisi6n de los fondos de la Biblioteca de Ajuda. 6. Revisi6n de los fondos de la Biblioteca de Mafra. 7. Revisi6n de los fondos de la Biblioteca PNiblica de Oporto. 8. Revisi6n de los fondos de la Biblioteca PNiblica de Coimbra. 9. Revisi6n de los fondos de la Biblioteca Universitaria de Coimbra. 10. Vaciado de catailogos e inventarios impresos de c6dices e icunables. 11. Vaciado de fuentes impresas secundarias para obtenci6n de noticias acerca de autores y obras. 12. Revisi6n de la base de datos para la incorporaci6n de los resultados de las investigaciones anteriores. DOSL: DI CTI ONARY OF THE OLD SPANI SH LANGUAGE Entre las numerosas universidades nortea- mericanas con Departamento de Lengua Espa- fiola, la Universidad de Wisconsin, en Madison, ha destacado por la presencia de algunos de los mis cl1ebres especialistas en literatura medieval peninsular; entre ellos, cabe sefialar a Antonio Solalinde y Am6rico Castro. En Madison, en 1931, Solalinde funda el Seminary of Medieval Spanish Studies, instituci6n que sigue atrayendo a hispanistas de todo el mundo, que tienen en Madison una cita obligada. El motivo que atrae al estudioso es el enorme volumen de informa- ci6n de que dispone el Seminario por los grandes proyectos de que se ocupa; entre 6stos, el mais ambicioso es, sin duda, el diccionario de espafiol medieval en el que se trabaja desde hace cin- cuenta afios. Resumimos la historia de ese dic- cionario, el Dictionary of the Old Spanish Language, tambi6n denominado DOSLI DEA: Tras la publicaci6n en 1930 de la primera parte de la General Estoria de Alfonso X, Solalinde inici6 la edici6n de su secci6n segunda. En este proyecto colaboraban junto al erudito espafiol dosj6venes medievalistas: Lloyd Kasten y Victor Oelschliiger. La idea de crear un diccio- nario de t6rminos medievales surgi6 en este momento, como una tarea ligada a la edici6n de la obra alfonsi, relaci6n que dura hasta hoy. En 1937, muere Antonio Solalinde y Lloyd Kasten ocupa el puesto de director del Semina- rio. En las d6cadas siguientes, el equipo del Seminario continua la magna tarea de compilar un diccionario de espafiol medieval, del que, como ejemplo, se publica el Tentative Diction- ary of Medieval Spanish (1946). Pero los re- sultados impresos s61lo dan una vaga idea del enorme trabajo llevado a cabo en ese periodo: durante cerca de cuarenta afios, el equipo del profesor Kasten, con una paciencia benedictina y miles de horas de dedicaci6n, consigue reunir varios millones de citas de la obra de Alfonso X, que, en la actualidad, ocupan 564 grandes cajo- nes con doble fila; ademais, se cred un diccionario de t6rminos extraidos de ediciones impresas que, a pesar de su gran utilidad, ain permanece in6dito (es de libre acceso para cualquier estudio- SO). En 1972, John Nitti, uno de los discipulos de Kasten, comienza su trabajo en el Seminario y, en 1975, se convierte en co-director de dicha instituci6n; este especialista era ya conocido por su formaci6n en las entonces nuevas t6cnicas cibern6ticas. La uni6n de ambos supuso un cam- bio rotundo en el m6todo de compilaci6n del DOSL: de 1972 a 1974, se crean programas especificos para el Diccionario y comienza la transcripci6n de los microfilmes de los manus- critos procedentes del escritorio real del Rey Sabio (aquf radica otra de las grandes novedades del Diccionario de la Universidad de Wisconsin: el uso de fuentes primarias, siempre mais fiables que la edici6n impresa). Alfonso X constituye el nucleo del DOSL, pero su corpus no es el tunico que se proyecta incluir: sus editores determina- ron servirse de unos 250 manuscritos e incuna- bles de diferente contenido entre los siglos XI I y XV. Por ello, una de las tareas baisicas fue la de localizar las fuentes primarias de las que se iba a partir. Esta labor resultaba especialmente dificil por carecer de un catilogo general que brindase datos exactos sobre los c6dices e impresos con- servados, su localizaci6n y su contenido. La Bibliography of Old Spanish Texts naci6 en 1975 con el prop6sito de colmar esta laguna, aunque su gran utilidad para el conocimiento de los textos castellanos medievales la convirti6 muy pronto en algo mis que una herramienta del DOSL: En la actualidad, BETA/BOOST es el primer libro al que acude cualquier estudioso que precisa un conocimiento directo de la Edad Media a trav6s de sus fuentes primarias. El Seminario ha tenido tambi6n otra influen- This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions 1018 HI SPANI A 75 OCTOBER 1992 cia notable, la de creaci6n de un estaindar para la transcripci6n: los textos se transcriben segtin el libro preparado por David Mackenzie, A Manual of Manuscript Transcription for the Dictionary ofthe Old Spanish Language [ 1986: 4 ed.], y las distintas entradas se crean de acuerdo con el patr6n marcado en Victoria Burrus, A Proce- dural Manual for Entry Establishment in the Dictionary of the Old Spanish Language [ 1986: 3a ed.]. UNI TE UNI TE es un conjunto de programas que comparan diferentes versiones de un mismo tex- to, con el objetivo de obtener una versi6n unifi- cada a partir de las comparadas. UNI TE no estai planteado como la soluci6n definitiva a los pro- blemas de la critica textual (extensi6n de los textos, diversidad de graffas, existencia de dife- rentes versiones, etc.), sino como una herramien- ta que libere al editor humano de labores rutinarias y centre su trabajo en aquellas fases del proceso en las que sea indispensable la actuaci6n del experto. Las versiones previas de UNI TE, en lenguaje PASCAL, para ordenadores I BM con sistema operativo VM/CMS o para sistema UNI X, trataban un maiximo de seis versiones de textos en verso. La versi6n para ADMYTE, escrita en C, para el sistema operativo MS-DOS, compara hasta treinta versiones, en verso de cualquier tipo y formato. Esti en realizaci6n la versi6n MS-DOS para comparar textos en prosa. La primera de las caracteristicas de UNI TE es que los textos no llevan ningtin tipo de marca, etiqueta o membrete incorporados por el editor al texto que copia: no se requiere ninguna labor de pre-edici6n. La segunda es que presenta una amplio aba- nico de posibilidades de automatizaci6n, con lo que el usuario puede delimitar perfectamente el campo de actuaci6n del programa. Ademais, el sistema personaliza cada intervenci6n, pidiendo un nombre al usuario y organizando todos los ficheros de variables segtin las instrucciones de ese usuario, lo que permite el trabajo de varios investigadores, cada uno con sus preferencias y, de acuerdo con ellas, sus ficheros de parimetros y de resultados claramente diferenciados e iden- tificados. El paquete estindar esti disefiado para com- parar doce versiones, aunque se incluyen tam- birn distintos programas ejecutables si se van a comparar mis, sin mis molestias para el usuario que modificar su fichero de parimetros. La uni- dad de comparaci6n es la estrofa, entendida simplemente como un conjunto de versos sepa- rados por blancos. Este tipo de unidad permite detectar y solucionar el problema de los versos descolocados dentro de ella. No es necesario que las versiones tengan el mismo nidmero de estrofas ni que 6stas est6n ordenadas por su numeraci6n, ya que se incluyen utilidades para confomar y ordenar los textos. Tampoco es nece- sario que las estrofas tengan el mismo ntimero de versos, ni, a diferencia de versiones anterio- res, que este nidmero tenga mis limitaciones que las de la capacidad del disco. Los Unicos requerimientos que se deben cum- plir en el formato de los textos son: * Un ntimero de lineas al principio del fichero para identificar el texto, que debe ser igual en todas las versiones que se van a comparar. Puede ordenarse y conformarse automdticamente. * Si el texto contiene varias estrofas, 6stas deben estar separadas entre si por una linea en blanco. Cada estrofa leva un ndimero, que debe aparecer delante del primer verso de la estrofa y en la misma linea que 6ste. * Aunque no es necesario que el texto est6 ordenado, ya que se puede hacer de forma automaitica, sies obligatorio que todas las versiones esten ordenadas con el mismo formato (puede aplicarse el programa correspondiente). Tenemos que advertir que las lineas al principio de los ficheros, que identifican los textos y que no serain tenidas en cuenta por los programas, no serin modificadas por las utilidades de formateo. Por ello es responsabilidad del usuario el asegurar, manual o automaticamente, que el ntimero de dichas lineas sea igual en todas las versio- nes. El conjunto de programas esti implementado en lenguaje C, y se presentardi al usuario en un entorno integrado. Este entorno es mucho mais c6modo y atractivo que la disposici6n de su precedente UNI TE-UNI X, que presentaba un sistema de mendes en el que aparecian todas las utilidades que componian el paquete de progra- mas, como el mend de operaciones con fiche- ros, el cual, a su vez, permitia acceder al mend de operaciones con ficheros, compuesto de menues y utilidades para editar tanto los ficheros que adaptan el programa a los gustos del usuario como los ficheros textuales o cualquier otro que se desee. Ahora el usuario puede personalizar todo el proceso desde la instalaci6n, incluyendo la selecci6n de su editor preferido. Todos los ficheros de personalizaci6n de UNI TE pueden ser modificados a conveniencia del usuario siempre que se respeten las indicaciones que aparecen el principio de cada uno. La unificaci6n automitica de los textos puede This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANI OLES 1019 realizarse en modo interactivo o en procesa- miento por lotes (modo batch). En el primer ca- so UNI TE muestra en la pantalla los resultados parciales de los diferentes procesos por los que va pasando. Su utilizaci6n puede ser conveniente para comprobar la unificaci6n de una o varias estrofas; pero no se recomienda cuando los tex- tos que se van a unificar no son cortos, ya que el uso de la pantalla por el programa bloquea otra posible actividad del usuario. Una vez que se lanza el proceso batch se devuelve el control al entorno integrado, con lo que se permite realizar cualquier otra tarea, in- cluso fuera de UNI TE. Cuando finalice la eje- cuci6n el ordenador advertiri con un mensaje al usuario. Se describen ahora de modo resumido las fases por las que atraviesa el proceso de unifica- ci6n. Conviene recordar que el funcionamiento de todas y cada una de estas fases esta controlado por los valores almacenados en el fichero de parimetros o asignados desde la pantalla (opcio- nes del entorno). Con la modificaci6n de estos valores, el usuario delimita la capacidad del programa para tomar decisiones en el proceso de unificaci6n. 1. Lectura de los textos. La lectura de los textos se realiza de acuerdo con los valores del formato especificados. La versi6n MS-DOS es muy flexible en lo que se refiere a que estos valores se correspondan con aquellos que sirvieron para dar formato a los textos y permite al sistema reajustar la confor- maci6n. La unidad baisica de lectura es la estrofa, formada por un nuimero variable de lineas. Otro punto destacable es la numeraci6n de dicha estrofa, utilizada para establecer la correspon- dencia entre las lefdas de las diferentes versiones. La elecci6n de la estrofa como unidad baisica implica unas mayores necesidades de recursos del sistema en el proceso de unificaci6n; pero tiene la ventaja de que se puede detectar y corre- gir la descolocaci6n de los versos dentro de la estrofa en unas versiones con respecto a otras. El desarrollo en ADMYTE de la nueva ver- si6n, que elimina la limitaci6n del mfiximo de versos por estrofa, implica que se podri utilizar el programa para cualquier tipo de texto. 2. Unificaci6n de grafia. En esta parte del proceso se modifican las graffas originales de los textos hacia formas grificas mais generales. Con ello se pretende eliminar en lo posible las diferencias producidas por dichas graffas y obtener un mayor ndimero de palabras iguales en el proceso de comparaci6n. La unificaci6n de graffa esti dividida en cinco fases, en cada una de las cuales se realiza un conjunto de modificaciones sobre la graffa origi- nal. Dichas fases no se ejecutan de forma conse- cutiva, sino que entre cada dos de ellas se inter- cala un proceso de comparaci6n. De esta forma se conserva en lo posible la graffa original de los textos, ya que cuando una palabra llega a ser igual en alguna de las modificaciones, no es alterada por las siguientes. Ademais de esto existe una fase llamada inactiva en la que no se modifica en nada la graffa original; dicha fase, ejecutada en primer lugar, permite comparar los textos con su graffa original y salvaguardar de posteriores modificaciones aquellas palabras que sean iguales. El usuario puede establecer qu6 bases se ejecutarin y en qu6 orden y por tan- to puede adaptar el proceso de unificaci6n a las caracteristicas de sus textos. 3. Unificaci6n de posiciones para una misma palabra. En esta fase del proceso se soluciona el pro- blema producido por aquellas palabras que adn siendo iguales en los textos comparados figuran en diferentes posiciones de dichos textos. Cuan- do se detecta este caso, el programa intenta asignar una tinica posici6n siguiendo los criterios del ntimero de veces que figura en cada una de las posiciones, prioridad de cada una de las versio- nes y comprobaci6n de que la posici6n elegida tenga ya otra palabra asignada. El control del usuario sobre este proceso consiste en la posibilidad de decidir si se ejecuta o no y de establecer el rango de posiciones del verso sobre las que actda. 4. Uni6n de palabras. Consiste en unir dos palabras en una sola, si con ello se consigue una nueva palabra que se pueda unificar con alguna de otra de las ver- siones comparadas. 5. Separaci6n de palabras. En esta fase se separan determinadas partes de una palabra para intentar unificar dichas par- tes, que ahora son nuevas palabras, con otras This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions 1020 HI SPANI A 75 OCTOBER 1992 palabras pertenecientes a otras versiones. 6. Formaci6n de palabras a partir de las le- tras comunes de otras. Este proceso es el tltimo recurso de la unifi- caci6n ya que, cuando los anteriores no han conseguido hacer iguales determinadas pala- bras, se intenta crear una nueva palabra a partir de las letras comunes de las que se estin com- parando. Se realizan sucesivas comparaciones y se elige como vilida aquella que produzca una relaci6n entre el ntimero de letras comunes y diferentes mais positiva; en todo caso, esta relaci6n debe ser igual o superior a 1. A continuaci6n se comentan algunos aspec- tos comunes a los puntos 4, 5 y 6. Antes de dar por vailida la ejecuci6n de cual- quiera de los anteriores procesos, se hace un estudio para comprobar si dicha ejecuci6n pro- ducird resultados positivos, es decir, ayudari a elegir una nueva palabra para la versi6n unifica- da. Con esto se impide que una modificaci6n no deseada interfiera en los posibles resultados de un proceso posterior. Los tres procesos anteriores trabajan con pa- labras localizadas en diferentes posiciones; por ello, despues de dar por vailida la ejecuci6n de un determinado proceso, el programa utiliza los criterios comentados en el punto 3, para estable- cer en qu6 posici6n de la versi6n unificada deben figurar las nuevas palabras. Otro aspecto destacable es que estos procesos se ejecutan mezclados y en diferentes fases. En la primera fase se exige que las nuevas palabras sean iguales a alguna de las ya existentes. En fases posteriores se van eliminando restriccio- nes, permitiendo que las nuevas palabras no sean totalmente iguales a las ya existentes; pero esta- bleciendo como limite que la relaci6n entre el nimero de letras iguales y diferentes sea mayor o igual que 1. Este bucle se ejecuta mientras queden posiciones en la versi6n unificada sin palabra asignada y los procesos anteriores pro- duzcan resultados positivos. Por iiltimo, conviene sefialar que el usuario. controla la ejecuci6n de los anteriores procesos igual que lo hace para la unificaci6n de posicio- nes, es decir, decidiendo si se ejecutan o no y el rango de posiciones sobre las que acttian. 7. Salida de resultados. El proceso de unificaci6n automitica genera varios ficheros de resultados. El primero de ellos almacena la versi6n unificada, mientras que el segundo registra una serie de datos referentes a los tres procesos vistos anteriormente y que resumen su ejecuci6n. Elfichero que almacena la versidn unificada, al igual que los textos comparados, estA dividido en estrofas separadas cada una de ellas por una linea en blanco. Ademais de las palabras que fueron seleccionadas para la versi6n unificada, figuran tambien las variantes que no fueron se- leccionadas, con un ntimero asignado para iden- tificar la versi6n original en la que aparecian. Opcionalmente tambien pueden aparecer las estrofas originarias de cada versi6n delante de la estrofa unificada. El fichero que resume la ejecucidn de los procesos de unificacidn se crea opcionalmente. Esta creaci6n estAi controlada por un pardnmetro modificable por el usuario. Su generaci6n es muy conveniente cuando se necesita una aclaraci6n de la ejecuci6n de los citados procesos. Para cada palabra que generan dichos procesos existe una linea del fichero en la que se indican la estrofa y verso en los que figura, el proceso que la gener6, la palabra unificada resultado del proceso y las palabras originales (acompafiadas del identificativo de versi6n correspondiente) que generaron dicha palabra unificada; estas litimas aparecen en formato original y no con el que realmente trabajan los procesos de unificaci6n. Es el fichero auxiliar para la elaboraci6n poste- rior del aparato critico. La extracci6n delfichero de variantes permi- te, ademais, disponer de todas las variantes que se han producido al realizar el proceso de unifica- ci6n, con objeto de tener un conocimiento, por separado, de lo que no ha sido unificado y poder disponer de estos datos a la hora de confeccionar el aparato critico. Thngase en cuenta que, tanto en este caso como en el anterior, se dispone de estos ficheros, opcionalmente, mais del fichero resul- tante de la versi6n unificada. La opci6n de trabajos con los textos permite utilizar algunas instrucciones del sistema operativo o de otros programas comerciales para realizar btisquedas de cadenas y obtener infor- maci6n sobre formas l6xicas o sintagmaiticas que interesen, dentro de su verso. En cada caso se busca dentro de un fichero y se almacenan los resultados en un fichero comin al que se van agregando los datos de las bisquedas subsi- guientes, si asi se desea. Se obtienen concordan- cias con indicaci6n del texto donde se encuentra la cadena buscada, nimero de linea y supresi6n optativa de las diferencias de mayisculas y mi- This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANOLES 1021 ndisculas asi como de los espacios en blanco entre palabras que pueden ir unidas o separadas, caso de los clifticos y de otras formas. El ndimero de opciones y combinaciones es elevado, por lo que vale la pena destacar simplemente la op- ci6n entre recoger la concordancia con el texto o s6lo la indicaci6n num6rica de la linea en la que se encuentra, procedimiento 6ste mais ripido y de inter6s para recuentos estadisticos. Dentro de ADMYTE, el programa asociado por exce- lencia es TACT. TACT TACT es un programa de recuperaci6n de informaci6n textual producido por el Centre for Computing in the Humanities de la Universidad de Toronto (Canada). El funcionamiento basico de TACT es simple: permite preguntar sobre la ubicaci6n de palabras y sintagmas en un texto. Para ello, aunque trabaje sobre un texto, no lee un simple fichero textual, sino que trabaja con una base de datos textual que fabrica una de sus utilidades, MAKBAS. El usuario interactdia con TACT a trav6s de un entorno integrado en donde puede realizar una serie de operaciones, como ver el texto, extraer la lista de palabras del mismo, seleccio- nar sobre ella las palabras que quiere destacar para construir concordancias o indices referenciales de menor extensi6n, estudiar en su distribuci6n por el texto o en su distribuci6n relativa al contexto frente a la totalidad, con fi- nes estadisticos. Los textos pueden estar escritos en cualquier sistema de caracteres, pues TACT permite la redefinici6n del juego de caracteres mediante un fichero auxiliar (XLATFABL.DAT), o utili- zando combinaciones de teclas, lo que permite una gran flexibilidad, especialmente en los sis- temas de indexaci6n y de buisqueda. El sistema funciona, en general, a base de selecciones, con la ventaja de que para ello el usuario puede establecer sus caracteres de con- trol y construir una base de datos para obtener informaci6n especffica. Puede tambi6n persona- lizar sus preferencias, mediante la creaci6n de reglas personalizadas o mediante la perso- nalizaci6n de la base textual, que se puede man- tener asi en consultas posteriores. Permite am- plios mirgenes en la definici6n de contextos o en la selecci6n, incluso desde la aplicaci6n con- creta, interactivamente. Podemos interrogar a la base de datos textual para saber no s61o en qu6 contexto aparece una palabra, con la posibilidad de elegir ese contexto en lineas o palabras o por el personaje que habla o el capitulo en que aparece, sino hacer consultas mais complejas, como el n imero de palabras del texto que aca- ban en -aba, o los lugares en los que un personaje habla de una palabra concreta o sus variantes formales, mediante el uso de simbolos comodi- nes, o aquellos en donde una serie de palabras ocurren en el mismo pdrrafo. Mediante reglas podemos agrupar las formas y sus variantes, pa- ra construir nuestras propias listas de sin6nimos o de alteraciones en el paradigma verbal, por ejemplo, y buscar segin ellas. Las reglas pueden conservarse, importarse y exportarse. Las bus- quedas permiten condiciones, afirmativas o ne- gativas, combinaciones de requisitos y diversas clases de comodines. Los resultados obtenidos pueden imprimirse, directamente, o bien guardarse en disco, en for- mato ASCI I , sustituyendo el fichero anterior del mismo nombre, si existia, o afiadi6ndose a 61, en ap6ndice, seguin se elija. Otra posibilidad de aprovechar el trabajo de sesiones anteriores es crear un fichero SCRI PT, que contiene un regis- tro de operaciones realizadas que puede repetirse en cualquier sesi6n futura y que se ha individualizado con un nombre propio. TACT va acompafiado de una serie de pro- gramas que refuerzan su utilidad. COLLGEN, por ejemplo, revisa las palabras de un texto para encontrar todos los lugares en los que aparece una combinaci6n de dos o mas palabras mas de una vez y escribe una lista que muestra qu6 combinaciones ocurren y con qu6 frecuencia. Tiene ademais la ventaja de que puede procesar- se por lotes (en modo batch). La mayor ventaja de TACT, sin duda, es la posibilidad de crear la propia base textual y definir todos los pardimetros que vayan a necesi- tarse. La base textual contiene, ademas del texto, indices completos de todas las posiciones de todas las palabras del texto, asi como informa- ci6n sobre la estructura formal: d6nde empieza o acaba un capitulo en una novela o un libro cientifico o d6nde habla o deja de hablar un personaje en una comedia. De ello se ocupa el programa MAKBAS, que admite todo tipo de informaciones sobre el texto y su etiquetado previo, los caracteres y signos diacriticos usados o aquellas partes que no deben ser tratadas como partes del texto, sino anotaciones, referencias o complementos, todo ello a partir de ficheros en formato ASCI I . A veces, podemos intentar crear una base textual demasiado larga para MAK- BAS. TACT resuelve esta dificultad mediante This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions 1022 HI SPANI A 75 OCTOBER 1992 MERGEBAS, un programa que permite combi- nar varias bases textuales en una base muy larga, soslayando asi los inconvenientes de un sistema operativo con tan pocos recursos de memoria como MS-DOS. CLARI TY-CD ADMYTE ofrece al usuario la posibilidad de combinar un ordenador personal (con una panta- I la VGA, por motivos de resoluci6n), un lector de discos liser y una impresora laiser para re- producciones inmediatas y seguras. A fin de combinar estos elementos y aprovechar toda la informaci6n contenida en ellos se desarrolla una versi6n ad hoc de CLARI TY-CD, un programa de MI CRONET, S.A. para recuperaci6n de in- formaci6n en textos e imagenes que soporta una amplia cantidad de perif6ricos, tanto scanners como lectores de CD-ROM o impresoras, ade- mis de varias pantallas. Para extraer la informaci6n requerida de la base de datos puede utilizar, simultineamente, a base de descriptores multit6rmino, dos tipos de indices, que se liaman, respectivamente, GLO- SARI O e I NDI CES.DEC. Las consultas simultai- neas posibles llegan hasta diez, aunque pueden conservarse macros de consulta para su uso posterior, con reorganizaci6n de la informaci6n extraida. Las consultas utilizan un conjunto de operadores 16gicos en castellano e ingl6s que permiten una amplisima combinaci6n. Al realizar btisquedas, CLARI TY-CD no se limita a palabras, sino que puede recibir peticio- nes de frases completas de mas de cuarenta caracteres, no s61o alfab6ticos, sino tambi6n nu- m6ricos: facilita la bdisqueda entre fechas y pue- de diferenciar rangos entre ntimeros. Para su aplicaci6n a textos como los que constituirin ADMYTE se han desarrollado tres ambientes de btisqueda: al tradicional del con- texto se unen ahora los de hipotexto e hiper- texto, que permiten establecer selecciones de bandas menos o mais anchas, delimitando si la zona de btisqueda es todo el texto o s61lo una parcela de 61 que el usuario define. CLARI TY combina las posibilidades de una base de datos con registros de longitud variable con las ventajas de disponer de su propio editor con procesador de textos y un sistema para importar informaci6n de otras bases de datos, sin perder ning6in elemento relevante de la informa- ci6n importada. Se presenta en un entorno inte- grado que permite ver la estructura de la base con la que se trabaja, seleccionar de forma sim- plificada, por glosario o ampliada, que es la mais compleja, guardar la consulta en disco mediante macros de consulta que se almacenan y pueden volver a utilizarse, crear nuevas bases de datos con un limite de sesenta y cuatro campos y una longitud maxima de 32 caracteres en la defini- ci6n de cada uno y asociar alas bases una palabra clave para proteger la informaci6n. Otras venta- nas permiten el manejo del sistema de tratamien- to de textos, suficientemente flexible como para un presentaci6n adecuada a los informes obteni- dos a partir de la informaci6n de la base, sin te- ner que recurrir necesariamente a otro sistema de tratamiento de textos o proceso de palabras. La ventana de listados permite, ademas de listar por impresora, guardar en disco con forma- to, guardar en disco como fichero ASCI I o guar- dar imagenes en ficheros del formato estindar de almacenamiento e intercambio de imigenes Tiff o Tiff comprimido, para ocupar, en el se- gundo caso, menos espacio en disco. CONCLUSI ON ADMYTE es un proyecto que combina mu- chos elementos de diversos tipos y origenes: la empresa piiblica y la privada, las instituciones de docencia e investigaci6n, los centros de investi- gaci6n y las bibliotecas, investigadores de for- maci6n humanistica y de formaci6n t6cnica, to- do ello dentro de un marco espafiol, pero proce- dente de distintos paises, lenguas y continentes, al servicio de un fin: una colecci6n de textos antiguos espafioles en formato de disco laser de tipo CD-ROM. MI CRONET difundird esta co- lecci6n por los canales comerciales habituales, por lo que los fondos que contiene se pondrin a disposici6n de cualquier usuario, en cualquier lugar del mundo: se trata del mayor esfuerzo de divulgaci6n del patrimonio cultural grifico (tex- to e imagen) de un pais realizado hasta la fecha. Las consecuencias de este esfuerzo son do- bles: en el terreno de la polftica cultural, como hemos dicho, es el mayor empefio, hasta ahora, para difundir el patrimonio cultural espafiol de modo global; en el terreno de la tecnologia es una respuesta a la necesidad de hacer del espafiol una lengua del siglo XXI , mostrando c6mo se han podido poner los mis modernos recursos de tratamiento de texto e imagen y de recuperaci6n de informnnaci6n de los dos tipos al servicio del patrimonio cultural, en un proyecto realizado en Espafia por empresas e instituciones espaiiolas, This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions ADMYTE, ARCHI VO DI GI TAL DE MANUSCRI TOS Y TEXTOS ESPANOLES 1023 abiertas a la colaboraci6n plurinacional y pluriuniversitaria. 0 NOTA ' Los datos t6cnicos sobre los procesos de recuperaci6n y digitalizaci6n de imaigenes, asi como los correspondientes a Clarity-CD, nos han sido facilitados amablemente por Carlos Dominique, de MI CRONET, S.A. Agradecemos tambi6n a Angel G6mez Moreno, Aurora Martin de Santa Olalla, Carmen Restoy, Xavier Agenjo, Julian Martin Abad, Araceli Sanchez Pifiol y Manuel Sainchez Mariana su colaboraci6n en ADMYTE. 0 BI BLI OGRAFI A SUMARI A Blecua, Alberto. 1983. Manual de critica textual Madrid: Castalia. Cabaniss, Margaret S. 1970. "Using a Computer for Text Collation." Computer Studies in the Humanities and Verbal Behaviour 3: 1-33. Cannon, Robert L. Jr. 1976. "OP-COL: An Optimal Text Collation Algorithm." Computers and the Humanities 10: 33-40. CASE: Computer Assistance to Scholarly Editing, A User's Guide, 1983. Mississippi State, MS: UP. Dearing, Vinton A. 1984. "Some Microcomputer Programs for Textual Criticism and Editing." Machina Analyt- ica: Occasional Papers on Computer-Assisted Scholarship. No. 1, Los Angeles: William Andrews Clark Memorial Library. Faulhaber, Charles B. et al. 1984. Bibliography of Old Spanish Texts (Literary Texts, Edition-3). Madison: Hispanic Seminary of Medieval Studies. Faulhaber Charles B. y Francisco Marcos Marin. 1989-90. "ADMYTE: Archivo digital de Manuscritos y Textos Espafioles." La Cor6nica: 18.2: 131-45. Froger, dom Jacques. 1968. La critique des textes et son automatisation Paris: Dunod. Greenia, George D. 1989. "The Libro de Alexandre and the computerized editing of texts." La Cor6nica 17: 55-67. Lancashire, I an y Willard McCarty 1988. The Humanities Computing Yearbook 1988. Oxford: Clarendon Press. Mackenzie, David. 1984. A Manual of Manuscript Transcription for the Dictionary of the Old Spanish Language (With Spanish translation by Josd Luis Moure.) 3a ed. Madison: Hispanic Seminary of Medie- val Studies. Marcos-Marin, Francisco. 1985. "Computer-Assisted Philology: Towards a Unified Edition of OSp. Libro de Alexandre." Proceedings of the E[uropean] L[anguage] S[ervices] Conference on Natural- Language Applications, section 16. Copenhague: I BM Denmark. . 1986a. "Metodologia I nformaitica para la Edici6n de Textos." I ncipit (Buenos Aires) vi: 185-97. . 1986b. "UNI TE: conjunto de programas para el tratamiento filol6gico de textos en verso." Procesamiento del Lenguaje Natural, [Sociedad Espafiola para el Procesamiento del Lenguaje Natu- ral]. 4: 43-55. . 1987a. Libro de Alexandre. Estudio y edi- ci6n. Madrid: Alianza Universidad. . 1987b. "El Libro de Alexandre: Edici6n unificada por ordenador" LEA 9: 347-70. . 1988a. "Recuperaci6n de informaci6n lingiifstica y tratamiento crftico de textos." Actas, Simposio I nternacional de Educaci6n e I nformdtica. Madrid, 15 al 18 de junio 1987. Madrid: I nstituto de Ciencias de la Educaci6n, Universidad Aut6noma de Madrid. 187-96. . 1988b. "El Libro de Alexandre: Notas a partir de la primera edici6n unificada por ordenador." Actas del I Congreso I nternacional de Historia de la Lengua Espafiola. Madrid: Arco Libros, 1988. 1025-64. Marcos Marin, Francisco y Pilar Salamanca Fernindez. 1987. "Programas informaiticos para la crftica textual." Telos 11: 105-11. Marcos Marin, Francisco y Jesuis Sanchez Lobato. 1988. Lingiiistica Aplicada. Madrid: Sintesis. Oakman, Robert L. 1984. Computer Methods for Literary Research, 2nd. ed. Athens, GA: University of Georgia. Salamanca Fernandez, Pilar. 1987. "Critica textual e informaitica: los programas UNI TE." FUNDESCO, Boletin de la Fundacidn para el Desarrollo de las Comunicaciones 73: 8-10. Shillingsburg, Peter L. 1986. Scholarly Editing in the Computer Age. Athens: University of Georgia Press. Timpanaro, Sebastiano. 1981. La genesi del metodo del Lachmann. 2 ed. Padova: Liviana Editrice. Uthemann, Karl-Heinz. 1988. "Ordinateur et Stem- matologie. Une constellation contaminde dans une tradition grecque." Spatial and Temporal Distributions, Manuscript Constellations. Studies in language variation offered to Anthonij Dees on the occasion of his 60th birthday. Ed. Pieter van Reenen and Karin van Reenen-Stein. Amsterdam: Benjamins. 265-77. This content downloaded from 140.77.168.36 on Thu, 19 Dec 2013 05:15:09 AM All use subject to JSTOR Terms and Conditions