Beruflich Dokumente
Kultur Dokumente
Busa
Un jour, le père Busa m'a dit qu'il avait l'habitude de choisir délibérément des
jeunes femmes pour perforer des cartes, parce qu'elles étaient plus prudentes que
les hommes. De plus, il choisit des femmes qui ne connaissaient pas le latin, car la
qualité de leur travail était supérieure à celle de ceux qui la connaissaient (ce
dernier se sentait plus en sécurité en tapant les textes de Thomas d'Aquin et donc
moins prudent). Ces femmes travaillaient sur l'Index Thomisticus, perforant les
textes sur des cartes fournies par IBM. Busa avait créé une sorte d '«école de
cartes à poinçonner» à Gallarate. Cette expérience de travail a donné à ces
femmes une compétence professionnellement transférable et documentée attestée
par le père Busa lui-même. 4
Ces dernières années, ces aspects du projet Index Thomisticus ont fait l'objet de projets
de recherche dans les domaines de l'histoire orale et des études de genre, et l'indice
nous aide à comprendre que les femmes ont joué un rôle fondamental dans les débuts
de l'informatique et du numérique. études médiévales. 5
Le prêtre ouvert d'esprit n'a jamais vu un conflit entre les objectifs de son travail et son
appel religieux, voyant l'ordinateur "comme le fils de l'homme, et donc petit-fils de
Dieu." 6 Busa a salué la rapidité et la précision des analyses informatiques .
Aujourd'hui, l'un des prix les plus estimés dans le domaine des humanités numériques
est nommé d'après le jésuite italien: le prix triennal Roberto Busa délivré par l'Alliance
des organisations de Digital Humanities (ADHO). Busa lui-même a été le premier
récipiendaire du prix en 1998 et il est resté un contributeur actif dans la communauté
jusqu'à sa mort.
Dans les décennies qui ont suivi le début du projet Index Thomisticus, les médiévistes
ont souvent été les premiers à adopter le numérique, et continuent à jouer un rôle
important dans le développement d'un domaine plus large, qui a fini par être appelé
humanités numériques. 7 Ce champ a pris d' autres formes et noms lors de son
émergence et le développement ultérieur: informatique, sciences humaines,
informatique humaniste informatique littéraire et linguistique, des ressources
numériques en sciences humaines, eHumanities, et d' autres. Ces alternatives
concurrentes, parmi lesquelles «l'informatique des humanités» a longtemps dominé,
n'ont fait que récemment place au terme nouvellement canonique «humanités
numériques», qui est aujourd'hui rarement contesté. 8«Humanités numériques» est
généralement destiné à se référer à un domaine plus large que «humanités
informatiques». Alors que ce dernier est restreint à l'application des ordinateurs en
sciences humaines et avait des objectifs techniques plus étroits, le premier intègre
également une «humanités du numérique» y compris l'étude (potentiellement par des
moyens traditionnels) de sources numériquement créées, telles que l'art et la
littérature. 9 DH est donc profondément pluridisciplinaire et attire des contributions de
chercheurs et de scientifiques à l'intérieur et à l'extérieur des humanités et des sciences
sociales humanistes. dix
Les humanistes numériques ont pris soin de se définir de manière inclusive plutôt
qu'exclusive. En conséquence, le terme «humanités numériques» connote un plus grand
sens de l'intégration que la diversité des approches qui sont abritées dans la «grande
tente» de DH et qui se reflètent également dans le contenu de ce supplément. 11 Ainsi,
alors que la définition de DH a fait l'objet d'anthologies dédiées, 12 tables rondes
innombrables, et même des sites entiers ( http://whatisdigitalhumanities.com), une
meilleure question pourrait être de savoir s'il existe encore des humanistes non
numériques aujourd'hui, puisque la plupart des chercheurs s'appuient au moins dans
une certaine mesure sur des outils de calcul, aussi basiques que les moteurs de
recherche en ligne ou les traitements de texte. Même les objets «originaux» de notre
recherche sont le plus souvent véhiculés par le texte imprimé ou en ligne ou par la
diapositive ou l'image numérique. 13 La différence entre les humanités numériques et
leurs homologues moins numérique est devenu plus une question de degré que de
nature.
Il est clair que les humanités numériques (et en son sein, les études médiévales
numériques) sont une communauté orientée vers la pratique. Il se peut que ce soit une
prise de conscience méthodologique pragmatique qui relie cette communauté, bien que
l'autoréflexion théorique et la méta-analyse soient devenues plus importantes
récemment. 14 Un certain nombre de théoriciens, dont Willard McCarthy, récipiendaire
du Prix Busa 2013, et John Unsworth, ont souligné la nécessaire disjonction entre
«l'objet étudié et la représentation de cet objet dans l'analyse numérique» 15. McCarthy
a soutenu que le concept de «modélisation» est une caractéristique centrale des
humanités numériques. 16Par un modèle, il signifie «une représentation de quelque
chose à des fins d'études ou d' une conception pour réaliser quelque chose de nouveau
» Après Clifford Geertz, il établit une distinction entre les modèles de choses (par
exemple, une grammaire, une carte géographique) et des modèles pour les choses (par
exemple, un plan d'architecture). Selon les traditions disciplinaires, les modèles
scientifiques sont connus sous différents noms (représentation, diagramme, carte,
simulation, etc.). Ce que ces modèles ont en commun, c'est qu'ils offrent une
représentation condensée et souvent simplifiée des choses. Par conséquent, les modèles
sont plus facilement manipulés que les objets qu'ils représentent, ce qui permet
l'expérimentation.
Selon McCarthy, la «modélisation», le processus heuristique dans lequel les modèles
sont construits et manipulés, est au cœur des humanités numériques. Bien sûr, les
modèles et les pratiques de modélisation existent depuis longtemps dans les sciences
humaines: l'appareil critique des éditions imprimées des œuvres médiévales n'est qu'un
exemple classique d'un modèle d'édition bien connu, qui tente de représenter de façon
condensée le phénomène complexe d'un texte médiéval. tradition. Ce qui différencie les
humanités numériques, c'est une sensibilisation accrue et un intérêt explicite pour les
stratégies de modélisation, en conséquence de l'interaction intense du domaine avec les
ordinateurs. Mais les ordinateurs ne peuvent traiter que des modèles totalement
explicites et cohérents, ce qui signifie que si les ordinateurs doivent analyser les
données des sciences humaines, nos hypothèses doivent être pleinement explicites et
cohérentes. Le besoin d'explicitation et de cohérence peut être aliénant pour les
chercheurs dans les domaines des sciences humaines où l'exceptionnel est souvent
adopté. Les érudits des paradigmes poststructuralistes pourraient également confondre
le besoin d'explicitation pour le positivisme scientifique.
Bien que, historiquement, les humanités numériques aient été dominées par des
paradigmes axés sur le texte, la communauté s'engage de plus en plus avec des objets
et des méthodes de recherche multimodale. 34
Le virage visuel
DH a adopté des visualisations dans de nombreux domaines de recherche. Graphiques,
diagrammes, diagrammes et autres interprétations visuelles étaient courants dans les
études antérieures à DH, mais avec DH a eu l'intérêt et la capacité de s'engager avec de
grands ensembles de données et de les représenter visuellement, par exemple, les
visualisations variées dans Maxim Romanov contribution à ce supplément. Les
visualisations de réseau sont aussi fréquemment utilisées, non seulement pour
l'exploration textuelle (article de De Gussem), mais aussi pour des analyses
géographiques, par exemple dans les articles de Romanov et Toby Burrows. 36 Un autre
article récent souligne la possibilité que l'analyse visuelle produise des résultats dans le
domaine de l'analyse d'images-caractéristiques, de la construction de taxonomie et des
méthodes de regroupement pour les manuscrits médiévaux; 37voir aussi l'article de
Kestemont, Christlein et Stuzmann sur les approches computationnelles pour identifier
les scripts dans ce supplément. Un certain nombre de projets récents ont investi des
efforts dans des reconstitutions virtuelles de bibliothèques médiévales à Chartres,
Lorsch et ailleurs. 38 Manuscriptlink, une nouvelle initiative en sciences humaines
numériques, vise à reconstruire des bibliothèques médiévales «virtuelles» en
collaborant avec des collections du monde entier pour réagréger des volumes
médiévaux précédemment perdus. 39 La contribution de Burrows au présent
supplément aborde des questions connexes.
Le virage spatial
L'utilisation stratégique de la cartographie numérique est une émanation de la
visualisation, qui est souvent orientée vers l'analyse graphique de la localisation, de la
propriété et de la distribution à l'intérieur des frontières géographiques. Les ensembles
de données offrant un meilleur accès à de plus grands ensembles de données spatiales
ont fait l'objet d'une recherche améliorée dans ce domaine. Par exemple, l'application
Atlas numérique des civilisations romaines et médiévales (DARMC) de Harvard fournit
des cartes SIG et des géodatabases qui sont ouvertement disponibles et consultables en
ligne. 40 L'application des manuscrits médiévaux numérisés (DMMapp) fournit des
ressources de carte d' origine en ligne, 41 tandis que le mappemondes numérique
permet de rechercher entre les cartes médiévales et les sources textuelles. 42
Les technologies du Système d'information géographique (SIG) offrent des moyens de
cartographier et de comparer les données spatiales. 43 Par exemple, le SIG a été utilisé
pour étudier l'histoire des paysages ruraux et urbains médiévaux. City Witness (
http://www.medievalswansea.ac.uk/ ), un projet de recherche multidisciplinaire, a créé
une carte interactive en ligne de Swansea, c. 1300, montrant ses principales
caractéristiques topographiques et paysagères, à côté d'une édition électronique de
textes du XIVe siècle. Ensemble, la carte et les textes offrent de multiples points de vue
sur la ville et les significations attachées aux endroits dans la ville par divers groupes
sociaux et ethniques (y compris anglo-normands et gallois, laïcs et religieux, hommes et
femmes). L'objectif du projet Mapping Medieval Chester
(http://www.medievalchester.ac.uk/index.html ) sont les identités que les habitants de
Chester ont formé entre c. 1200 et 1500. À l'instar de City Witness, le projet intègre
des cartographies géographiques et littéraires de la ville médiévale en utilisant des
sources cartographiques et textuelles afin de comprendre comment les paysages
urbains ont été interprétés et navigués par les habitants locaux.
Le SIG a également été utilisé pour «cartographier» des objets individuels comme la
page manuscrite. La cartographie des textes à travers le SIG est au cœur de la
contribution de David Wrisley au supplément; et le projet Lancelot-Graal (
http://www.lancelot-project.pitt.edu/lancelot-project.html ), présenté dans l'article d'
Alison Stones dans ce supplément, est l'un des leaders de cette adaptation du SIG.
Dans le projet de carte de Gough ( http://www.goughmap.org/ ), le SIG a été utilisé
pour analyser la représentation relationnelle de l'espace dans les cartes médiévales et
contemporaines, nous permettant de comprendre que la carte du quatorzième siècle a
été conçue pour être fonctionnelle et démontré un haut degré de précision spatiale.
44La cartographie des lieux au sein de chartes ou même de textes hagiographiques
peut permettre une meilleure compréhension de la construction d'un paysage
sociopolitique. La cartographie des lieux et des types de miracles au sein de la vie de
Sainte Foy de Conques fournit des preuves de l'étendue spatiale de l'influence du
monastère et des différences qui s'y trouvent. 45
Reconstructions tridimensionnelles
Les reconstitutions séminales tridimensionnelles des bâtiments et des espaces passés
ont inclus les reconstructions de l'église de Cluny par le laboratoire de l'université de
Darmstadt; 46 site Web de la cathédrale d'Amiens dirigé par Stephen Murray à
l'Université Columbia; 47 et le site Web de MonArch, avec ses reconstructions
tridimensionnelles, curseur de temps, et sources textuelles liées pour
Saint-Jean-des-Vignes, Soissons, produit par Sheila Bonde et Clark Maines. 48 Voir
aussi la contribution de Sheila Bonde, Alexis Coir et Clark Mainessur l'abbaye
d'Ourscamp dans le supplément actuel. Un projet récent ambitieux exploite les résultats
d'une étude archéologique et de sources historiques pour créer une reconstruction
tridimensionnelle complète de l'architecture de toute la ville médiévale de Montieri, en
Italie. Cette reconstruction 3D a aidé les chercheurs dans leur analyse de l'architecture
et de l'aménagement de la ville et contribuera également au patrimoine et au tourisme.
49
Le tour sonique
Les avancées numériques qui nous permettent de recréer des manuscrits médiévaux ou
de voir des reconstitutions tridimensionnelles de structures médiévales ont apporté
d'importantes contributions à la compréhension du passé médiéval. Avoir une
compréhension complète de la façon dont les gens ont fait l'expérience de ces objets et
bâtiments renforce encore cette compréhension.
Des études sérieuses ont été fortement liées au patrimoine et à la conservation, se
concentrant souvent sur la capture de chansons, de musique et de sons de notre
environnement culturel. 50 Pour les médiévistes, la reconstitution de musique et de
paysages sonores passés relie ces efforts aux reconstructions architecturales
tridimensionnelles. Une ressource numérique est fournie par DIAMM (l'archive d'images
numériques de la musique médiévale) à l'Université d'Oxford, qui présente des
informations sur des milliers de manuscrits, ainsi que près de quinze mille images et
métadonnées associées. Le forum en ligne Sounding Out! fournit un espace pour la
publication, les publications, la discussion et les enregistrements. 51Le Centre de
recherche informatique en musique et acoustique de Stanford (CCRMA) est un
établissement multidisciplinaire où la technologie numérique est utilisée comme outil
artistique et outil de recherche. 52 Une récente reconstitution du paysage sonore
médiéval de la cathédrale de Santiago de Compostela, dirigée par Rafael Suárez de
l'Université de Séville, a révélé que les conditions acoustiques des pèlerins de la nef
étaient compromises, tandis que les conditions acoustiques du chœur étaient idéales
pour les deux. plain-chant et polyphonie. 53 Voir aussi la contribution à ce supplément
de Bissera Pentcheva et Jonathan Abel , qui explore l'acoustique de Sainte-Sophie; et
l'article de Spyridon Antonopoulos, de Sharon Gerstel, de Chris Kyriakakis, de
Konstantinos T. Raptis et de James Donahue décrivant les aspects acoustiques des
églises byzantines à Thessalonique.
La possibilité de faire une visite virtuelle des sites médiévaux est une émanation du
travail numérique avec une application du patrimoine, et Google et l'UNESCO ont
collaboré pour offrir des visites virtuelles à plusieurs endroits importants. 54IIVE
(Environnements Virtuels Immersifs Interactifs) fournit un engagement interactif pour le
«spectateur» dans le cadre d'un musée ou d'un affichage du patrimoine. Second Life et
son homologue open-access, OpenSimulator; Myo; Lunettes Google; et Oculus VP sont
toutes des applications potentielles. Ces mondes virtuels, où les utilisateurs sont
représentés par des avatars, permettent une interaction entre les utilisateurs et
l'environnement et sont donc appropriés pour simuler des environnements (passés) en
temps réel. Ils peuvent (bien qu'ils n'incluent pas toujours) inclure des sens au-delà du
visuel, en particulier du harnais. Un de ces sites, centré sur la cathédrale de Saint
Andrews en Écosse, combine la reconstruction en trois dimensions des bâtiments de la
cathédrale, le mouvement des processions, de la musique et d'autres sons,
expérimentés à travers un avatar. 55Alors que les musées de brique et de mortier sont
coûteux à construire et à entretenir, et que le déplacement vers un site archéologique
peut ne pas être praticable (surtout après la fin d'une fouille), une expérience simulée
de visite peut être créée grâce à la technologie numérique. Deux projets archéologiques
du monde romain, les projets Rome Reborn et Portus, ont fourni ces technologies à des
visiteurs virtuels. 56 Une application médiévale récente a été réalisée pour une banlieue
musulmane du dixième au douzième siècle de Sinhaya, en dehors de Saragosse. La
visualisation de Sinhaya était basée sur les preuves archéologiques des fouilles ainsi
que des documents d'archives. Des algorithmes d'éclairage photoréalistes ont été
développés par le Grupo de Informática Gráfica Avanzada (GIGA), et l'animation
virtuelle peut être visualisée dans un système de type CAVE à faible coût.57
D'un point de vue méthodologique, il est vital que les nouvelles approches de la culture
médiévale ne perdent pas de vue les méthodes savantes traditionnelles et plus
conventionnelles. Néanmoins, des tensions suscitant la réflexion ont émergé entre les
sciences humaines numériques et traditionnelles. En 2010, par exemple, Google a
collaboré avec un grand nombre de scientifiques pour publier un article scientifique
influent sur le célèbre projet Google Livres. 61 Dans ce projet, le géant technologique
californien affirme avoir numérisé environ 4% de tous les livres jamais imprimés - et
l'expansion de l'ensemble de données est toujours en cours. Parce que cet ensemble de
données est facilement consultable en ligne, 62il offre une ressource pratique, que les
chercheurs interrogent aujourd'hui plus souvent qu'ils ne veulent l'admettre. Dans cet
article, Jean-Baptiste Michel et al. discuter d'un domaine de recherche émergent appelé
«culturomics», l'étude des données culturelles à haut débit par l'analyse lexicale, et ils
se concentrent sur l'analyse diachronique des fréquences des mots dans les livres
anglais (1800-2000). Bien que leur stratégie de comptage de mots soit simple, leur
recherche a démontré que l'utilisation des mots dans les grands corpus est en
corrélation avec les développements culturels. La fréquence relative du mot
«esclavage», par exemple, a atteint un sommet dans leurs données pendant la guerre
civile américaine et plus tard pendant le mouvement des droits civiques. En plus d'un
large éventail d'analyses linguistiques, leur compte de mots a même démontré la
censure active d'artistes juifs, tels que Marc Chagall, dans l'Allemagne nazie.
En décembre 2010, les deux principaux auteurs du document ont présenté leur travail
stimulant lors de la réunion annuelle de l'American Historical Association. Le président
de l'association, Anthony Grafton, proposera plus tard un compte-rendu fascinant de cet
événement: «Malgré tout leur panache - et tout le plaisir que leur permet leur outil -
Lieberman-Aiden et Michel ont aussi inspiré un peu d'inquiétude. le statut de notre
discipline. " 63Grafton a regretté que la liste d'auteurs du journal, bien que
considérable, n'incluait pas un seul historien, et que ce manque d'expertise historique a
parfois montré dans leur présentation. Il a déclaré, déçu, que «[p] ablitentiellement, les
historiens n'ont pas établi, aux yeux de beaucoup de leurs collègues des sciences de la
nature, qu'ils possèdent des connaissances spécialisées qui pourraient être précieuses,
voire cruciales.» Lieberman-Aiden et Michel Ils contrediront plus tard ce point de vue en
soulignant qu'ils ont reçu des commentaires d'historiens universitaires, bien que leurs
noms n'aient pas été inclus dans la liste finale des auteurs. 64Ils ont déclaré que, même
si les «connaissances spécialisées» sont importantes, les paradigmes partagés, un
langage partagé et des valeurs intellectuelles communes constituent une grande partie
de ce qui fait qu'une équipe réussie se réunit. Cela suggère que les départements
d'histoire doivent faire face à plusieurs responsabilités nouvelles: pour encourager la
connaissance des méthodes quantitatives, avec des techniques de calcul, et comme
vous l' avez écrit de façon éloquente avec la collaboration à grande échelle « . 65
L'initiative de recherche à la base de l'article de culturomics est une instanciation
typique de ce que l'on appelle communément la «lecture lointaine» dans les humanités
numériques, une notion vaguement définie, introduite par Franco Moretti dans une série
d'essais. 66 À l' heure actuelle, la lecture à distance (parfois aussi connu sous le nom
macroanalyse, critique algorithmiques, lecture panoramique, et d' autres termes) joue
un rôle dans une variété d'approches de l' analyse de texte dans les sciences humaines
où les grands corps de textes sont interrogeables et analysées à l' aide d' une
combinaison de techniques de la technologie du langage, de la recherche d'information
et de la science des données. 67Le point commun à toutes ces approches est la
stratégie selon laquelle une partie importante du processus de lecture classique est en
fait délibérément sous-traitée à une machine; l'intervention humaine est largement
reportée à l'interprétation du modèle simplifié que les algorithmes donnent. Comme l'a
noté Moretti, la distance du lecteur par rapport au texte original en tant que tel devient
une fonction de la portée accrue de l'effort de lecture.
Le mélange de fascination et d'inquiétude de Grafton est probablement représentatif de
l'attitude que de nombreux chercheurs entretiennent aujourd'hui envers de telles
formes de lecture lointaine. Le fait qu'une partie cruciale du processus de lecture soit
sous-traitée à une machine remet en question la qualité du modèle textuel que les
méthodes computationnelles de pointe peuvent offrir. Comme moyen d'interroger ces
questions, il sera illustratif de discuter d'un petit, mais représentatif et critique, lecture
à distance. 68 Pour cela, les Presses de l'Université de Chicago nous ont accordé l'accès
à une version numérique du Spéculum archives couvrant l'ensemble de la période de
soixante-dix années entre l'édition inaugurale de la revue en 1926 et décembre 2016.
Comme dans tout corpus important de nos jours, la qualité du texte numérique varie
énormément: pour la partie jusqu'au volume 84, nous devons travailler la sortie de la
reconnaissance optique de caractères, alors que nous pouvons travailler avec des
données natives et numériques à partir du volume 85 et au-delà.
Comme peut être glané de la parcelle de barre sur la Fig. 1, où le nombre de jetons a été
agrégé sur une base annuelle, l'ensemble de données complet s'élève à plus de 65 millions de
jetons (mots, mais aussi signes de ponctuation et autres symboles), bien que les chiffres
montrent de fortes fluctuations au cours des années. Néanmoins, la taille impressionnante
des archives soulève la question intrigante de savoir si de précieux modèles pourraient être
extraits de ces données, ce qui pourrait donner une «vue panoramique» du contenu et des
biais thématiques de la revue ainsi que son développement au fil des ans. Quels auteurs et
textes médiévaux se classent le plus haut, par exemple, dans Speculumla liste de popularité
de popularité; et quelles approches savantes ont évolué dans ou hors de la mode au fil des
ans? Pour cet effort, nous avons utilisé une gamme de techniques de calcul, qui sont
représentatives de l'état de l'art dans les stratégies de modélisation textuelle dans les
humanités numériques de nos jours. Espérons que cet ensemble de méthodes nous permettra
de présenter, dans un langage non technique, les opportunités et, peut-être plus important
encore, les défis qui découlent d'une telle application «vanille» de la lecture à distance.
Fig. 1. Le mot compte pour les données de l' archive Speculum , agrégées au niveau de
l'année (1926-2016).
Une étape courante de prétraitement dans l'analyse textuelle consiste à appliquer un
soi-disant étiqueteur au matériau, une procédure établie dans le traitement du langage
naturel. Dans cet exercice, nous avons segmenté le flux brut original de caractères dans un
article Speculum en unités de jetons significatives. Par exemple, clitic "do not" sera restauré
en "do" et "not". 69 Nous avons appliqué la suite logicielle Stanford CoreNLP à l'archive,
qui offre une multitude de procédures de base et qui est maintenue par l'un des principaux
groupes de recherche dans le domaine de la technologie du langage. 70 Ci-dessus, nous
montrons un exemple dans le tableau 1 pour la sortie de la suite pour une phrase
sélectionnée au hasard à partir d'un spéculum 1955contribution. Comme on peut le voir dans
cet exemple, le logiciel tentera de déterminer pour chaque jeton lemme (ou dictionnaire
fléchie mot - clé, c'est passé a devient prendre ), la partie du discours ( titre , tel qu'il est
utilisé dans cet exemple, est un NN, ou nom singulier) et une indication de si le jeton est une
entité nommée ( 1066 est une date, mais Raimond est catégorisé comme une personne). Le
logiciel prend ces décisions sur la base d'une évaluation statistique de l'apparence d'un jeton
(par exemple, le jeton est-il capitalisé?) Et du contexte lexical dans lequel il apparaît (par
exemple, le jeton est-il précédé d'un adjectif?).
Tableau 1. Exemple d'une phrase (tirée au hasard d'un problème de spéculum de 1955
), étiquetée par la suite Stanford CoreNLP
Fig. 2. Diagramme de dispersion montrant les années les plus communément mentionnées
(500-1500) dans le spéculum .
Plus haut dans l'intrigue une date peut être trouvée, plus la date est fréquente; plus il
est positionné vers la gauche (et plus sa taille de police est grande), mieux il est réparti
sur les documents individuels du corpus. Le sommet de la liste est clairement dominé
par des dates rondes (1300, 1200, 1000). Cela reflète le fait que les médiévistes ont
généralement préféré penser aux frontières conventionnelles décennales, millénaires et
millénaires. Néanmoins, il est tentant de relier un certain nombre de dates plus haut
dans cette liste à des événements bien connus dans la période médiévale, y compris
1066 (la bataille de Hastings) ou 1204 (le limogeage de Constantinople dans la
quatrième croisade). Pour une date emblématique telle que 1430, il est intéressant que
l'on puisse être tenté de la lier à plusieurs événements, ce qui aide à expliquer son
importance: on peut penser au siège de Compiègne et à la capture de Jeanne d'Arc,
mais aussi au mariage de Philippe le Bon et à l'installation de l'Ordre de la Toison d'Or.
Fait intéressant, les années 1000 et 1348 (éclosion de la peste noire) ont une dispersion
plus faible que leur fréquence élevée pourrait nous rendre suspect.
De telles agrégations de fréquences au niveau du corpus sont un jouet intéressant pour nous
aider à caractériser les études médiévales d'un point de vue panoramique, mais le marquage
de notre matériel nous permet également d'interroger Spéculum d'une manière plus
spécifique. Pour les graphiques linéaires des Fig. 3a-bPar exemple, nous avons calculé la
fréquence relative de tous les noms (pluriels ou singuliers) dans le matériau au cours de la
période 1926-2016. En utilisant un test statistique commun ( tau de Kendall ), nous avons
interrogé les résultats pour les cinq noms qui ont montré la diminution (a) ou l'augmentation
(b) la plus stable dans l'utilisation de Speculum . Les résultats de la Fig. 3ane sont pas
particulièrement excitants, et montrent simplement que les styles de citation traditionnels
(Latinate) (op.cit., ff., loc.) se développent à la mode chez les auteurs Speculum . Fig. 3b,
d'autre part, suggère une augmentation de fréquence propre et étonnamment linéaire des
mots "rôle" et "contexte": ce phénomène suggère fortement que les études médiévales, telles
que représentées par les articles Speculum , ont été marquées au XXe siècle par une
transition vers une approche plus fonctionnaliste et contextualisée du Moyen Âge, ce qui a
déjà été souvent observé dans les études littéraires. Le changement dans l'utilisation des
mots «aperçu», «focus» et «potentiel» semble d'autre part être de nature métascholar et
pourrait signaler une tendance vers une plus grande professionnalisation et spécialisation
savante dans le domaine plus large des études médiévales.
Fig. 3. (a) La fréquence relative des noms avec la chute de fréquence la plus linéaire. (b) La
fréquence relative des noms avec l'augmentation la plus linéaire de la fréquence.
Nos analyses jusqu'ici ont été purement lexicales ou réalisées au niveau des mots
individuels. Le problème avec une telle approche brute de comptage de surface est
qu'elle dissimule le contexte réel dans lequel les mots sont utilisés. Si un mot a été
fréquemment utilisé dans Speculum, cela semblerait en effet témoigner de la saillance
culturelle du mot dans le monde des médiévistes, mais cette approche sans contexte ne
peut pas nous dire si le terme a des connotations principalement positives ou négatives,
ni indiquer le contexte savant dans lequel il est généralement utilisé. Pour remédier à
cette situation, les humanités numériques utilisent de plus en plus des méthodes
empruntées à la sémantique distributive, un domaine de recherche passionnant dans le
traitement du langage naturel (ou la linguistique computationnelle). Dans ce domaine
d'étude, les chercheurs s'appuient sur l'idée générale que les mots dérivent
principalement du contexte lexical dans lequel ils apparaissent. 71 Par exemple, dans
une phrase telle que "J'ai fait le * blarf chercher le bâton" ou "j'ai pris le * blarfpour sa
promenade du soir, «le contexte dans lequel le terme inexistant * blarf apparaît
fortement suggère un animal domestique - peut-être un chien.
Dans la sémantique distributive, les chercheurs tentent de modéliser les modèles de
répartition dans les occurrences de mots trouvées dans les grands corpus, tels que l'
archive Speculum . L'hypothèse sous-jacente est que le vocabulaire peut être modélisé
en un ensemble de champs ou de sujets sémantiques; ces sujets sont constitués de
groupes de mots qui coexistent généralement dans des documents ou des paragraphes
et qui sont donc plus susceptibles d'appartenir au même sujet que des mots qui
n'apparaissent jamais dans le même contexte. 72Chacun des thèmes d'un tel "modèle
de sujet" peut être supposé porter un certain poids, ou score de sujet, sur chaque
document dans un corpus: un article de journal sur le transfert d'un footballeur célèbre
au Real Madrid, par exemple, pourrait être caractérisé Nous avons soumis l' archive
Speculum à un exercice de modélisation de sujet en utilisant la méthode bien connue
NMF (factorisation matricielle non négative). ). Nous avons demandé à la méthode
d'extraire les 250 sujets les plus saillants à partir de segments consécutifs de 500 mots,
qui n'incluaient pas de mots vides (tels que des articles, des signes de ponctuation ou
des prépositions).
Nous avons choisi une sélection représentative de ces sujets et les avons visualisés comme
une série de nuages de mots dans la Fig. 4. Cette sélection démontre clairement la variété
internationale et thématique des contributions de Speculum au cours de l'histoire de la revue.
Dans ces nuages, la taille de la police des mots individuels reflète leur importance relative
pour le sujet. Notez que le modèle de sujet lui-même ne produit pas un "label" net pour un
sujet, mais ses mots les plus significatifs donnent généralement une indication solide quant à
la portée sémantique d'un thème particulier. Ces sujets forment des clusters de mots
relativement nets, même si cette analyse ne dépend pas de ressources externes, telles que les
dictionnaires: le modèle dérive ses connaissances sémantiques d'une manière entièrement
basée sur les données uniquement à partir des statistiques d'utilisation des mots dans un
grand corpus.
Fig. 4. Nuages de mots représentant une sélection de thèmes sélectionnés parmi nos modèles
thématiques (250 sujets au total). Seuls les mots les plus saillants sont tracés pour chaque
sujet; la taille de la police des mots individuels donne une indication de leur importance
relative pour le sujet en question.
Cette vue d'ensemble des sujets témoigne de la dominance des sujets insulaires, y
compris ceux qui capturent les domaines thématiques entourant les Contes de
Canterbury , Beowulf , Monmouth's Arthuriana, Piers Ploughman et ses collègues
allitératifs, ou la domination du monachisme clunisien et de l'architecture de la
cathédrale. Néanmoins, la diversité topique est assez riche pour inclure la littérature
latine du XIIe siècle de France, telle que la grappe de littérature cistercienne autour de
Bernard, et aussi le monde des sagas scandinaves et de la Commedia de Dante.. Un
certain nombre de sujets reflètent aussi clairement des intérêts thématiques de plus
haut niveau, tels que l'amour courtois, ainsi que des thèmes au sein de l'architecture
médiévale, des études islamiques et des études de genre. De nombreux sujets semblent
également aborder les principaux conflits culturels qui ont caractérisé la période
médiévale, notamment la confrontation de la culture chrétienne avec l'arabe dans
l'Espagne médiévale ou la tension entre le christianisme et le judaïsme - notez la
présence de termes polaires tels que accusation, violence , et assassiner dans le dernier
sujet.
Fait intéressant, ce modèle de sujet nous permet également d'étudier l' archive Speculum de
façon plus diachronique. Si nous devions calculer la présence moyenne d'un sujet spécifique
dans tous les problèmes de spéculum qui ont été publiés au cours d'une année donnée, tracer
ces scores sur un calendrier pourrait fournir un aperçu de l'évolution thématique. Dans les
Figs. 5a-d, nous avons tracé un certain nombre de lignes de tendance pour une sélection de
sujets qui semblent révéler des modèles évolutionnistes intéressants. Le sujet lié au genre
156 ( femmes , femmes , hommes ), par exemple, semble avoir seulement gagné en
importance dans les années quatre - vingt, et va de même pour l'approche socio - culturelle,
fonctionnaliste à la littérature ( sociale , culturelle , culture ), qui semble être capturé dans le
sujet 231. l' une des plus évidentes tendances « vers le bas » est l'utilisation décroissante du
latin dans toute l'histoire de la revue (sujet 3) -notre analyse suggère également des
tendances similaires pour d' autres langues, comme le français et l' allemand-ce qui suggère
que Speculumdevient un journal plus monolingue. D'autres sujets sont caractérisés par des
pics plus locaux, comme le sujet 48, qui reflète un nombre élevé de citations dans le
domaine de l'aristotélisme médiéval ( averrois , aristotelem , commentariorum ) dans la
période 1950-1970.
Fig. 5. Quatre graphiques illustrant la présence diachronique des sujets sélectionnés dans les
questions sur le spéculum sur une base annuelle.
Alors que la modélisation de sujets offre des perspectives qui ne sont pas disponibles à
partir d'approches de comptage de mots plus simples, elle soulève également de
nouveaux problèmes. Est-ce que le mot Bernard , par exemple, fait référence à l'auteur
médiéval Bernard de Clairvaux ou au savant actuel Bernard McGinn (ou les deux)? Le
problème qui se pose ici est que même les entités nommées peuvent être ambiguës, et
pour parvenir à une approche plus holistique de la lecture automatique des machines,
ces entités doivent être désambiguïsées. "Wikification" est un terme utilisé
familièrement pour désigner le processus de désambiguïsation d'une entité nommée
entre documents dans le traitement du langage naturel. 73De nombreux outils logiciels,
tels que la suite Stanford CoreNLP utilisée ci-dessus, sont disponibles aujourd'hui pour
étiqueter automatiquement les entités nommées dans un texte libre, tel que les noms
d'individus ou de lieux. Alors que ce processus de reconnaissance d'entités nommées
est déjà un pas crucial vers l'extraction des connaissances, l'ambiguïté des entités
nommées constitue un obstacle majeur sur la voie de la compréhension autonome
d'une machine. Dans une phrase comme "Clinton a pris la scène", il n'est pas clair si
l'entité nommée se réfère à Hillary Clinton, Bill Clinton, ou le musicien funk éponyme,
George Clinton.
Dans les études de wikification, les chercheurs tentent d'extraire des indices du
contexte sémantique dans lequel une entité nommée se produit pour aider à
désambiguïser ces mentions. Si la phrase se lit comme suit: «La secrétaire Clinton est
entrée en scène», l'apposition «secrétaire» suggère fortement que la phrase se réfère à
Hillary, puisqu'elle est la seule candidate à l'homonymie à occuper ce poste spécifique.
De plus, les systèmes de wikification peuvent exploiter le fait que les entités nommées
mentionnées dans un texte forment généralement un ensemble sémantiquement
cohérent: dans la phrase «Clinton a pris la scène avec Bob Marley», l'identification
relativement univoque du musicien Bob Marley suggère que le Clinton dans cette phrase
est l'artiste George Clinton.
Les chercheurs se tournent souvent vers Wikipédia comme une ressource pour
l'extraction des identifiants uniques et fixes pour les entités nommées. En reliant les
entités nommées à l'entrée unique et pertinente d'une entité nommée dans
l'encyclopédie bien connue, l'algorithme exécute efficacement une résolution d'entité
nommée inter-documents. De plus, Wikipédia est construit au-dessus d'une structure
ontologique riche, de sorte que différentes sortes de métadonnées peuvent être récoltées
pour chaque entité, sous la forme d'étiquettes descriptives indiquant si un individu était,
par exemple, un philosophe ou un roi. Wikipédia a une portée impressionnante, mais en
même temps l'utilisation d'un wikifier introduit de forts biais. Les entités nommées
inhabituelles qui n'ont pas encore reçu de page Wikipedia identifiable seront ignorées
par nécessité. Également, le fait que nous utilisions un wikifier pour la langue anglaise
pourrait biaiser notre analyse vers des entités relativement plus saillantes,
culturellement parlant, dans la partie anglo-saxonne du monde. Lorsque nous
appliquons le wikifier de l'Illinois74 à l'archive de texte en clair de Speculum , une
lecture superficielle de la sortie du wikifier suggère anecdotiquement que le wikifier se
débat avec la mauvaise qualité OCR des premiers volumes, mais est néanmoins capable
de produire des annotations intéressantes:
Fig. 6. Subplots montrant les auteurs (a), les poèmes (b) et les saints (c) les plus
fréquemment cités dans Speculum sur la base de l'homonymie de l'entité nommée du
wikifier.
Bien que ces listes de résultats soient intéressantes en elles-mêmes, l'examen de la simple
fréquence ne révèle pas les relations complexes qui peuvent exister entre elles et avec
d'autres mots auxquels ces entités sont généralement associées. Pour étudier et visualiser
ceux-ci, nous nous tournons vers une dernière technique, à partir de la sphère des
plongements distributionnels: les plongements de mots. Tout comme les techniques de
modélisation de sujets, les intégrations de mots reposent sur l'hypothèse distributionnelle
selon laquelle des mots ayant un sens similaire auront tendance à apparaître dans des
contextes similaires. Cependant, alors que les techniques de modélisation de sujet visent à
trouver de bonnes représentations pour les sujets et les documents, l'incorporation de mots
peut produire des représentations beaucoup plus fines pour des mots individuels. Les
incorporations de mots représenteront les éléments d'un vocabulaire en utilisant un vecteur
numérique, ou une liste de nombres qui visent à caractériser le sens du mot. L'avantage d'un
tel modèle de niveau de mot est que nous pouvons appliquer une simple arithmétique à ces
représentations vectorielles et demander au modèle, par exemple, de renvoyer les cinq mots
qu'il juge les plus proches d'un certain terme de requête. Si nous appliquons un modèle
populaire de mot-embeddings (word2vec) à notre corpus wikified, nous pouvons inspecter le
voisinage sémantique immédiat des termes suivants listés dansTableau 2 . 75 Utilisation de
la représentation vectorielle que nous pouvons extraire pour nos auteurs wikified, nous
pouvons également utiliser ces incorporations pour visualiser les relations entre nos auteurs
dans un dendrogramme ou un diagramme d'arbre. Dans la Fig. 7, les liens wikified prennent
la forme de feuilles dans un arbre, qui sont finalement joints dans de nouveaux noeuds dans
une structure de branche. Les branches reflètent les distances entre les représentations que
nous avons obtenues pour ces auteurs. Notez comment la structure qui découle de cet arbre a
du sens (monarques se regroupent avec des monarques, philosophes avec des philosophes,
etc.) mais offre aussi des résultats surprenants: Ovide et Virgil, par exemple, se regroupent
avec Boccace, Pétrarque et Dante, au lieu de avec d'autres auteurs de l'Antiquité, tels que
Cicéron ou Platon. Notez, également, comment l'arbre réalise au niveau supérieur ce qui
semble être une répartition assez nette entre les auteurs vernaculaires et les autorités
non-vernaculaires.
Tableau 2. Les voisins les plus proches pour une sélection d'entités canoniques à l'aide
d'un modèle Word-Embeddings
Fig. 7. Un dendrogramme représentant le résultat d'une analyse de cluster, où les (dis)
similitudes entre les auteurs sont visualisées comme une structure arborescente. Les
dissemblances ici sont basées sur les plongements que nous avons obtenus pour ces auteurs
et qui capturent le contexte sémantique dans lequel ces auteurs sont typiquement mentionnés
dans Speculum .
Ces plongées de mots ont attiré beaucoup d'attention récemment, principalement parce
qu'il a été démontré que ces modèles sont capables de résoudre indépendamment une
forme intéressante de problème de raisonnement analogique. Par exemple, lorsqu'on lui
demande quel mot est «femme» comme «roi» est «homme», un modèle formé sur le
texte de Wikipédia en anglais produira le mot «reine». 76 La tâche est simplement
résolue par l'équation suivante: roi - h omme + femme . L'idée est que le modèle prenne
sa représentation vectorielle pour le mot roi , «soustrait», ou supprime, toutes les
propriétés abstraites qu'il associe au mot homme , puis ajoute toutes les propriétés qu'il
associe au mot femme. Le modèle renvoie ensuite le mot le plus proche du résultat de
l'opération. D' autres sorties culturelles intrigantes du modèle original étaient les
suivants : Japon - sushi + new_york → Pizza et Belgique - Bruxelles + France → Paris
. En tant que Spielerei intéressant , notez qu'un tel modèle est capable de résoudre des
questions qui suscitent la réflexion telles que "Qui est le Chaucer des Français?" En le
modélisant simplement sous la forme de l'équation Geoffrey_Chaucer -
English_language + French_language. Un certain nombre de résultats concrets tirés
d'une analogie délibérément provocante de notre modèle Speculum sont donnés
ci-dessous:
Les partisans de la lecture lointaine ont souvent loué la capacité des techniques
informatiques à élargir notre champ de lecture au-delà du canon obligatoire des
Chaucer, des Dantès et des Chrétiens. Moretti, par exemple, a suggéré que les
techniques informatiques nous permettraient enfin de nous attaquer à ce que Margaret
Cohen a appelé la «Grande Non- Lire », l' o
ubliëtte de la littérature historique.
77Jusqu'à présent, cependant, les résultats à cet égard ont été limités, et de nombreux
projets de numérisation se concentrent autour du panthéon confortable et bien connu
des auteurs canonisés - l'attention disproportionnée pour une figure comme Chaucer
dans les études médiévales traditionnelles, par exemple, a été remarquablement
parallèles dans l'univers numérique jusqu'à présent. Ce n'est qu'un cas où les études
médiévales numériques peuvent probablement mieux tenir leurs promesses et
détourner notre attention d'un canon médiéval déjà surexposé vers les périphéries
moins connues de la culture médiévale.
Néanmoins, il est troublant qu'une grande partie de l'œuvre médiévale numérique
réponde plus étroitement aux questions et aux préoccupations de l'érudition médiévale
du dix-neuvième siècle que celles des vingtième et vingt et unième siècles. Dans le
domaine de l'analyse de textes, par exemple, les praticiens ont jusqu'ici montré peu
d'intérêt pour la théorie littéraire moderne, et en particulier pour les approches
poststructuralistes. Le rejet postmoderne - et le manque d'intérêt pour la paternité des
textes - peut aussi expliquer pourquoi les spécialistes du numérique peuvent se tenir à
l'écart d'un domaine qui n'accorde pas de valeur aux questions centrales de la plupart
des études médiévales numériques. Les humanistes numériques influents, tels que
Geoffrey Rockwell ou Stephen Ramsay, pourraient interpréter cette observation à la
lumière de leur - comme ils l'admettent eux-mêmes - une vision plutôt polémique des
humanités numériques en tant que communauté de «constructeurs»:78 -et, nous
pourrions ajouter, peutêtre aussi une communauté oùbourse est souvent si
expérimental qu'il est plus comme « jouer » que « travailler ». 79
Les frères Grimm ont redécouvert la littérature médiévale dans l'Allemagne du
dix-neuvième siècle et ont pris la peine d'entreprendre l'étude savante d'un phénomène
culturel étrange d'un passé lointain, encore fondamentalement nouveau pour eux à
l'époque. Ils se sont retrouvés confrontés à la nécessité de cataloguer, décrire et éditer
une masse non structurée de nouvelles sources, et ils ont lutté pour appliquer les
modèles savants existants qu'ils avaient hérités de leurs prédécesseurs humanistes. En
raison des dimensions européennes de nombreux phénomènes médiévaux, ils étaient
également impliqués dans des négociations constantes à travers leur correspondance
scientifique internationale, par exemple, sur l'authenticité de certaines versions de
textes ou sur les directions des échanges culturels dans l'Europe médiévale. Il ne serait
pas exagéré d'assimiler la condition des humanistes numériques actuels à leurs
précurseurs du XIXe siècle. Les humanistes numériques modernes, eux aussi, sont
confrontés à l'étude savante d'un héritage médiéval qu'ils doivent souvent numériser à
partir de rien, même s'ils définissent une pratique numérique érudite sans une tradition
de modèles existants qui peuvent être facilement appliqués à l'étude computationnelle
et diffusion de ces artefacts et de nouvelles idées à leur sujet. En travaillant en tant que
communauté, de nombreux humanistes numériques réinventent actuellement des
aspects importants des études médiévales dans ce processus, à travers des discussions
fondamentales sur le but et la signification du domaine. même s'ils définissent une
pratique scientifique numérique sans une tradition de modèles existants qui peuvent
être facilement appliqués à l'étude informatique et à la diffusion de ces artefacts et de
nouvelles idées à leur sujet. En travaillant en tant que communauté, de nombreux
humanistes numériques réinventent actuellement des aspects importants des études
médiévales dans ce processus, à travers des discussions fondamentales sur le but et la
signification du domaine. même s'ils définissent une pratique scientifique numérique
sans une tradition de modèles existants qui peuvent être facilement appliqués à l'étude
informatique et à la diffusion de ces artefacts et de nouvelles idées à leur sujet. En
travaillant en tant que communauté, de nombreux humanistes numériques réinventent
actuellement des aspects importants des études médiévales dans ce processus, à
travers des discussions fondamentales sur le but et la signification du domaine.
Cette situation conduit à une relation complexe, opaque et fascinante entre les études
médiévales numériques et leur contrepartie conventionnelle. Sur le plan anecdotique,
les humanistes numériques sont inspirés par la relative liberté dont ils jouissent dans le
terrain de jeu expérimental qu'est la DH, où les chercheurs peuvent opérer largement
en dehors du regard et de la critique des humanités conventionnelles. Selon certains,
DH peut être considéré comme un champ délibérément «sous-théorisé» 80, où les
jeunes chercheurs ne sont pas gênés par les mécanismes d'intimidation et d'exclusion
qui sont souvent liés au concept de «théorie» 81.D'autres ont prétendu que DH est en
fait beaucoup plus théorique que les humanités traditionnelles, en raison de la place
centrale qui est attribuée aux débats méthodologiques fondamentaux sur la
modélisation dans les sciences humaines. Dans un article de blog célèbre, "Qui vous
appelez Untheoretical?", Jean Bauer cité Susan Smulyan, qui a crié à une occasion, "La
base de données est la théorie!" 82
Bien que la présence de débats théoriques et méthodologiques de haut niveau ne soit
pas remise en question, la relation entre les écoles traditionnelles et non traditionnelles
dans les études médiévales mérite d'être examinée de plus près. Les chercheurs en
sciences humaines numériques justifient généralement leur existence par une affiliation
active avec les sciences humaines disciplines plus anciennes 83 -En fait, on pourrait dire
que c'est avant tout cette affiliation qui sépare les sciences humaines numériques de la
science informatique. Dans les études médiévales aussi, le lien entre les praticiens
traditionnels et numériques est crucial si l'on veut que le domaine médiéval progresse
dans son ensemble. Surtout, cela exige un intérêt mutuel des deux parties et une
volonté fondamentale d'apprendre les uns des autres, tout en ne négligeant pas la riche
tradition de l'érudition médiévale.
Alors que nous nous attendons à ce que les études numériques médiévales deviennent
de plus en plus courantes dans le futur, il restera important de maintenir des points de
vente dédiés pour les médiévistes numériques afin de réfléchir sur les aspects plus
techniques de leur travail. Un certain nombre de revues spécialisées récemment
inaugurées, telles que le Digital Medievalist Journal (
https://journal.digitalmedievalist.org/ ) et la Philologie numérique: un journal des
cultures médiévales (Johns Hopkins University Press) méritent d'être regardées, en plus
de des revues pluridisciplinaires établies en DH, telles que LLC: Digital Scholarship in
the Humanities (Oxford University Press, anciennement connu sous le nom de Literary
and Linguistic Computing ) et Digital Humanities Quarterly, tous deux publiés au nom
d'ADHO. De même, le livre des résumés de la conférence annuelle mondiale en DH
organisée par ADHO ( http://adho.org/ ) permet de suivre les développements actuels
dans le domaine.
Les plates-formes plus pédagogiques sont également importantes pour le
développement ultérieur du domaine. Des tutoriels pratiques sont proposés pour aider
les débutants à acquérir des compétences numériques qui ne font peut-être pas encore
partie des programmes de formation dans l'enseignement supérieur. Sites Web tels que
l'historien de la programmation ( http://programminghistorian.org), par exemple,
offrent un large éventail de tutoriels évalués par des pairs sur les compétences
techniques. D'autres ressources pédagogiques populaires pour les novices sont les
nombreux événements de formation de longue date qui sont organisés chaque année
dans la communauté DH, tels que le Digital Humanities Summer Institute de l'Université
de Victoria, l'Université d'été européenne en sciences humaines numériques de
l'Université de Leipzig, et les Digital Humanities à Oxford Summer School (DHOxSS) à
l'Université d'Oxford. Les «non-conférences» THATcamp (Le Humanités et la
Technologie Camp) qui ont eu lieu à divers endroits ont également fait connaître les
méthodes et les approches numériques à un large public. 84 Outre une exposition plus
longue aux pratiques des humanités numériques, de tels événements ont une
dimension sociale importante en permettant aux nouveaux arrivants de constituer un
réseau en DH.
Ce supplément numérique
Ce supplément est divisé en quatre sections qui visent à représenter plusieurs des
tendances que nous avons tracées ci-dessus. Dans la première section, «Manuscripts
and Images», quatre articles traitent des approches de l'analyse des manuscrits. Toby
Burrowsintroduit un projet qui rassemble les manuscrits anciennement dans la
collection de Sir Thomas Phillipps et explore les défis de l'analyse des grands corpus.
L'énorme collection de manuscrits rassemblés par Phillipps au XIXe siècle a ensuite été
dispersée auprès d'institutions et de collectionneurs privés du monde entier. Parce que
les preuves relatives à la provenance et à l'histoire de ces manuscrits sont vastes et
variées, l'élaboration d'un cadre d'analyse cohérent a nécessité la mise en œuvre d'un
nouveau modèle de données pour la provenance des manuscrits. En plus d'examiner les
processus techniques impliqués dans ce travail, Burrows présente les résultats de
l'application de cette approche à deux questions de recherche spécifiques: les histoires
du groupe de manuscrits qui appartenaient à Thomas Phillipps et Alfred Chester Beatty,
Bien qu'il soit bien connu que de nombreux scribes avaient plusieurs scripts et même
des alphabets à leur disposition, il y a eu peu de discussions sur le phénomène d'un
point de vue paléographique, et encore moins sur les méthodes pour y remédier. Dans
sa contribution sur le multigraphisme dans les manuscrits anglo-saxons tardifs, Peter A.
Stokes examine en détail le travail de deux scribes multigraphiques, s'inspirant du cadre
DigiPal et explorant les capacités qu'il offre pour la communication et l'analyse du script
et les idées qu'il fournit sur pratique scribe anglo-saxon tardive et écriture
multigraphique en général.
Mike Kestemont, Vincent Christlein et Dominique Stutzmannproposent ce qu'ils
appellent la «paléographie artificielle», basée sur l'adaptation de la technologie du
champ de la vision par ordinateur et de l'intelligence artificielle à l'étude paléographique
des manuscrits médiévaux. Leur article se concentre sur l'identification automatique des
types de manuscrits dans les manuscrits médiévaux, ce qui constitue une étape
importante sur la voie de la «lecture automatique» de ces documents, entièrement
automatisée. Le travail est présenté dans le contexte d'un concours organisé
récemment, ou «tâche partagée», sur ce sujet, qui est un format scientifique de plus en
plus commun dans le monde du savoir numérique. En plus d'une introduction de haut
niveau aux modèles informatiques qu'ils utilisent, l'article se concentre sur
l'interprétation de ces systèmes complexes dans le contexte de la paléographie
traditionnelle.
Murray McGillivray et Christina Duffy font briller la nouvelle lumière de la spectrométrie
pour voir sous les illuminations du célèbre manuscrit de Gawain. Leur article s'intéresse
aux techniques de l'imagerie multispectrale pour examiner les illustrations de Londres,
la British Library, MS Cotton Nero Axe, le manuscrit unique de Sir Gawain et du Green
Knight et trois autres poèmes importants du Middle English. L'imagerie révèle les
dessins à l'encre sous la peinture ultérieure et détecte les différences par rapport aux
objectifs illustratifs, aux portions endommagées et fanées des images qui ont été
restaurées et au déploiement intentionnel de pigments chimiquement différents qui ont
fini par ressembler au fil du temps.
La deuxième section, intitulée «Cartographie», comprend deux articles qui illustrent
l'utilisation des systèmes d'information géographique (SIG) dans les études médiévales.
David Joseph Wrisley explore la cartographie numérique pour des études médiévales à
des échelles multiples pour des lectures proches et lointaines. Son article distingue la
cartographie de l'information géographique du SIG historique et présente plusieurs
résultats du projet Visualizing Medieval Places (VMP) pour l'étude de textes français
médiévaux. Wrisley soutient la nécessité d'étendre le projet dans une architecture de
recherche qui permet la co-création de données sociales et explore les affordances des
données ouvertes liées. M. Alison Stones décrit l'évolution du projet Web
Lancelot-Graal, qui adapte le SIG à la géographie de la page manuscrite, en l'utilisant
dans le cadre d'un examen comparatif des différences dans le choix, le placement et le
traitement des sujets dans les illustrations manuscrites.
La troisième section, "Textes et éditions", rassemble quatre articles. Jeroen De
Gussemretrace le "sentier de secrétariat" de Bernard de Clairvaux en utilisant les
techniques de la stylométrie. Le style littéraire de Bernard de Clairvaux (vers
1090-1153) était d'une telle grandeur qu'il était imité par les plus grands théologiens de
son temps, fournissant une «architecture» pour une écriture cistercienne. Les meilleurs
imitateurs de Bernard se retrouvent, en effet, à ses côtés, dans le scriptorium de
Clairvaux. Ces scribes ont été formés pour imiter la formulation préférée de leur abbé et
sa maîtrise des rebondissements rhétoriques, et bien que Bernard ait pris l'habitude de
relire, corriger et repolir ses œuvres, il est souvent difficile de savoir comment ses
secrétaires son oeuvre. Le personnage central du scriptorium de Bernard était Nicholas
de Montiéramey, qui servit l'abbé du c. 1138-41 à c. 1151-52, et dans cet article, la
dynamique de la parenté entre les œuvres de Bernard et de Nicolas est mise à nu par
des méthodes stylométriques. La familiarité stylistique entre leurs textes peut nous en
apprendre plus sur la nature de la collaboration dans le scriptorium de Clairvaux ainsi
que permettre une meilleure lecture attentive des textes les plus douteusement
attribués à Bernard.
Maxim Romanov présente une analyse algorithmique des collections biographiques
médiévales arabes, une collection de données unique dont la taille a entravé un
traitement holistique jusqu'à présent. Son article illustre le type de macroanalyse que
permettent les corpus de grande taille et peu étudiés, en mettant l'accent sur la
distribution géographique et temporelle des entités dans ses données. Romanov discute
des complexités du marquage, de la structuration et de la pérennisation de ces données
et offre des indications précieuses sur des outils pratiques et des méthodologies
réalistes.
Mark Cruse effectue une analyse quantitative des toponymes dans un manuscrit du
Devisement du monde de Marco Polo(Londres, British Library, MS Royal 19 D 1). Les
chercheurs ont depuis longtemps noté que le compte de Marco Polo présente de
nombreux problèmes textuels, et pas seulement aux érudits modernes. Les toponymes
du texte posent également un défi particulièrement important aux scribes qui ont copié
les premiers manuscrits parce que beaucoup étaient inconnus, et l'analyse quantitative
des toponymes dans la plus ancienne version française du compte (Royal 19 D 1)
confirme l'incertitude scribe qui a suivi. la copie de ces mots. En distinguant les
toponymes familiers et non familiers, en attribuant les occurrences à des scribes
spécifiques et en quantifiant le nombre de variantes et le degré de variance
orthographique et phonétique pour chaque toponyme, l'article soutient que nous
pouvons identifier les mots et les contextes qui se sont révélés difficiles à scribes. Plutôt
que de considérer ces variantes comme des erreurs, soutient Cruse, nous devrions les
analyser comme des formes de réponse du lecteur. Une analyse de ces toponymes dans
leur contexte manuscrit comme des marqueurs sémantiques dépourvus d'annotation
moderne nous permet de rencontrer le texte de Polo comme l'ont fait ses premiers
lecteurs - comme la description d'un monde encore inconnu regorgeant de lieux
exotiques riches en significations. En fin de compte, les façons dont les scribes ont
répondu aux toponymes dans le compte de Polo reflètent non seulement la pratique
scribale, mais aussi les processus par lesquels la nouvelle information géographique a
été absorbée par les lecteurs médiévaux.
L'article de Franz Fischerétudie une série d'éditions scientifiques numériques en mettant
l'accent sur les options et les exigences pour le développement de corpus textuels
numériques. D'une part, la pluralité textuelle ou plutôt éditoriale semble être l'une des
principales caractéristiques des éditions numériques; d'autre part, l'utilité d'un corpus
dépend essentiellement de l'uniformité et de la représentativité des textes qu'il
comprend. Basé sur une définition claire mais flexible des éditions critiques numériques,
Fischer fait plusieurs propositions pour résoudre le conflit entre une variété d'approches
éditoriales et une homogénéité souhaitable au sein d'un corpus. Par l'inclusion d'éditions
numériques dans un sens large et critique dans un sens étroit, mettant l'accent sur les
œuvres plutôt que sur les documents, et le lien avec les ressources externes, ou leur
intégration, il soutient qu'il est possible de créer un corpus précieux et véritablement
numérique d'éditions critiques. L'utilité de ses caractéristiques et le cadre technique
d'un tel corpus seraient basés sur un modèle de données élémentaire pour les
métadonnées, le texte, l'annotation et les paratextes.
La quatrième section, intitulée «Multimédialité: espace et son», présente trois articles
qui explorent les reconstructions de l'espace architectural médiéval et des sons dans les
bâtiments médiévaux. Sheila Bonde, Alexis Coir et Clark Mainesutiliser la technologie de
conception (CAO) assistée par ordinateur pour reconstruire, représenter et étudier
processus architectural à l'église cistercienne de Notre-Dame d'Ourscamp, en se
concentrant sur la fin du XIIIe siècle, lorsque les travailleurs démantelés extrémité est
romane de l'église et l'a remplacé par un nouveau chœur gothique. Ils soutiennent que
la représentation numérique a le potentiel d'encourager les spectateurs à s'engager
dans le cycle de vie plus complet d'un bâtiment, et qu'elle encourage les chercheurs à
analyser l'application tridimensionnelle de leurs interprétations du changement de
construction. Le but de leur projet numérique a été de promouvoir une compréhension
plus complète du processus par lequel les constructeurs médiévaux ont démantelé des
parties de bâtiments plus anciens pour y ajouter de nouvelles extensions.
Les deux autres articles de cette section examinent les sons de Byzance. L'équipe
internationale de Spyridon Antonopoulos, Sharon Gerstel, Chris Kyriakakis,
Konstantinos T. Raptis et James Donahue étudie les aspects acoustiques des espaces
liturgiques byzantins dans les églises de Thessalonique. Leur projet unit l'analyse
scientifique de l'acoustique avec la considération du cadre architectural et de l'imagerie
de la performance chorale. Leur projet vise à identifier et préserver les signatures
acoustiques des églises étudiées et à capturer l'expérience multisensorielle du fidèle
byzantin.
Bissera Pentcheva et Jonathan Abel présentent la méthode et les résultats du projet
multidisciplinaire Icons of Sound de l'Université de Stanford. Ils soutiennent que la
technologie numérique nous permet de transcender une rencontre textuelle avec la
musique liturgique byzantine et restaure les aspects performatifs du rite chanté, et
qu'ils se concentrent sur Hagia Sophia: son acoustique, son esthétique et sa musique.
L'article détaille les effets de la structure en dôme sur l'expérience du chant chanté en
son sein: l'amplification des sons ainsi que le chevauchement des notes et une "cascade
acoustique" produisent à la fois une brillance auditive et une brillance optique. En
utilisant la technologie numérique, Icons of Sound a imprimé avec succès la signature
acoustique du bâtiment sur la performance en direct du chant de la cathédrale
byzantine.
Les articles de ce supplément se combinent donc pour offrir une fenêtre sur la richesse
des approches et des expériences que les médiévistes ont apportées au domaine des
humanités numériques. On espère que cette contribution à Speculum suscitera (encore
plus) un nouvel intérêt et une nouvelle activité dans ce domaine prometteur.
Remarques
INTRODUCTION
Le moyen âge numérique : une introduction
MANUSCRITS ET IMAGES
L'histoire et la provenance des manuscrits de Sir Thomas Phillipps : nouvelles approches
de la représentation numérique
Attribution scribale à travers plusieurs scripts : une approche assistée numériquement
Paléographie artificielle : Approches informatiques pour identifier les types de script dans
les manuscrits médiévaux
Nouvelle Lumière sur le Sir Gawain et le Manuscrit du Chevalier Vert : l'imagerie
multispectrale et les illustrations de la hampe Nero
CITATION D'ARTICLE
David J. Birnbaum , Sheila Bonde et Mike Kestemont , «Le moyen âge numérique: une
introduction», Speculum 92, no. S1 (octobre 2017): S1-S38.
https://doi.org/10.1086/694236
Parmi tous les articles publiés, les articles suivants ont été les plus lus au cours des 12 derniers
mois