Sie sind auf Seite 1von 14

Techniques de Numrisation

Cours licence BDAN IUT2 Grenoble 2009-2010

Jean-Michel Mermet Charg de Mission Documentation DSI de Grenoble Universits Tl : 04 76 63 59 43 Ml : Jean-Michel.Mermet@grenet.fr

Ce cours est diffus via une licence Creative Commons by-nc-sa (modalits http://creativecommons.org/licenses/by-nc-sa/2.0/fr/)

Cours numrisation (c) JMM 2009-2010

version du 16/09/09

page 1/71

A.
1.

Introduction
Prsentation et primtre du cours

La numrisation est la conversion d'un signal analogique en un signal numrique en fonction de deux paramtres : l'chantillonnage et la quantifcation. C'est conceptuellement une modlisation mathmatique de la ralit. La numrisation concerne aussi bien les images, les textes, que le son et les vidos pour couvrir le champ des projets en maturation de nos jours. Le cours a pour but de vous faire parcourir et rfchir sur toutes les tapes d'un projet de numrisation, depuis l'ide initiale et l'intrt d'y recourir jusqu' la production des donnes numriques. La numrisation, en effet, ne s'arrte pas, loin de l, l'tape technique qui consiste faire passer par exemple une photo argentique sous forme de fchier image :

Il y a, en amont toute la rfexion de ce que l'on veut numriser, pourquoi on veut le faire, comment on va le faire, dans quels formats, pour quels publics, etc... Il y a, en aval, toute la rfexion sur le mode de mise disposition des fchiers numriques, leur identifcation, leur authentifcation, leur formats de diffusion, leur prservation pour le futur.

Il y a donc bien une vritable chane numrique concevoir, mettre en place, faire fonctionner. Nous verrons que tout projet de numrisation implique une rfexion srieuse sur le long terme.

a.

Primtre du cours
les aspects juridiques ; la gestion des assets numriques par les systmes de gestion de contenu (CMS) traites par ailleurs par Jrmie Grpilloux ; la thorie des mtadonnes traite par Elizabeth Cherhal ; les traitements graphiques, sonores et vidos appliquer aux fchiers obtenus ; nous n'aborderons que ce qui est ncessaire pour reprsenter correctement les documents analogiques sous forme numrique. Les aspects d'archivage des donnes numriques, qui sont traites dans un nouveau cours. La publication des collections sur internet, objet de la suite de ce cours au second semestre

Ce cours ne couvrira que trs rapidement les notions suivantes :

2.
a.

L'importance de la numrisation
Prambule

Selon une enqute rcente du Rseau canadien dinformation sur le patrimoine propos de lutilisation de la technologie dans les muses, 94 % des institutions souhaitent faire de la numrisation leur premire priorit en matire de technologie pour lanne 2006. La numrisation [] est dsormais une activit importante pour les muses. tant donn que les connections Internet haute vitesse deviennent de plus en plus abordables et accessibles, il est normal que les muses publient de plus en plus sur leur site des images de leurs artefacts. 1 Les documents numriques issus d'une numrisation servent :

limpression, la documentation, la recherche et la publication en ligne, et le plus souvent pour la gestion des collections, la prparation de catalogues et la promotion dexpositions ou dautres activits.

Pourquoi la numrisation est-elle devenue si populaire ?2

1 2

http://www.chin.gc.ca/Francais/Contenu_Numerique/lere_de_la_numerisation.html (visit le 27/08/2009) http://www.chin.gc.ca/Francais/Contenu_Numerique/ Guide_Gestionnaires/introduction.html (visit le 24/7/2006) version du 16/09/09 page 2/71

Cours numrisation (c) JMM 2009-2010

Elle permet de rendre les collections beaucoup plus accessibles (collections autrefois trop lointaines, objets trop fragiles pour tre manipuls ou exposs) Elle permet de mettre en valeur des aspects particuliers de lhistoire locale ou datteindre un public national ou international. Elle permet de rassembler, des fns de comparaison et de recherche, des objets ou des collections disperss en plusieurs lieux Elle peut devenir un puissant outil denseignement. La numrisation peut galement contribuer la gestion des collections en procurant tout le personnel une meilleure information sur le contenu des collections. Le simple fait de slectionner des objets numriser fournit au personnel une occasion supplmentaire dvaluer et de consigner ltat des objets. La numrisation incite en outre amliorer la documentation, en particulier lorsque des enregistrements daccompagnement sont destins tre rendus public en mme temps que les images numrises : le besoin de normes et dune meilleure information devient rapidement vident. Les objets numrises sont utilises dans une vaste gamme de produits de diffusion comme les sites Internet, le matriel de promotion, de nouveaux articles pour la boutique souvenir dun muse, etc. La numrisation contribue aux stratgies de conservation puisque, une fois numriss, les originaux analogiques fragiles sont davantage labri des manipulations et des aggressions. Comme la technologie numrique permet de faire une recherche dans un grand nombre denregistrements, de modifer et de traiter des images et des textes et de rassembler des lments disparates selon des modalits nouvelles, elle peut se rvler un outil souple et prcieux dans tous les secteurs dun muse. La facilit dexcution des tches mentionnes ci-dessus favorise galement une collaboration plus troite avec dautres tablissements.

b.

Pourquoi numriser ?
Plus de dtrioration des supports en consultation Une fois numriss, les documents originaux peuvent tre conservs dans des conditions optimales, sans le danger que reprsente leur manipulation. On augmente donc leur scurit. Reproduction - il est possible de raliser des copies de l'information dj numrise en utilisant soit le mme format de stockage soit un autre format numrique, sans perte de qualit. Automatisation - sont automatiss non seulement la restitution des lments demands par les chercheurs, grce l'utilisation de systmes de stockage robotiss, mais aussi le processus de reproduction. Le document tant reprsent par une chane de chiffres binaires, il est possible d'automatiser la copie. Recherche - la numrisation offre la possibilit d'effectuer des recherches dans les catalogues aussi bien locaux que lointains et de crer un tissu de liens ou de pointeurs renvoyant du document consult par l'utilisateur des documents connexes de la mme collection ou d'autres. Des recherches de texte intgral peuvent en outre tre effectues. Des techniques de recherche analogues sont actuellement labores pour les documents sonores et les images (recherche et reconnaissance de phrases musicales, de rythmes, de motifs, de formes, ...) Accessibilit distance , elle tient la capacit d'envoyer un signal numrique sur les rseaux de tlcommunications sans perte de qualit. temporelle la collection numrise est accessible 24 heures sur 24 avec un minimum de personnel. Finalement, l'accessibilit est grandement amliore pour des publics dfcients visuels ou moteurs. Selon Francis Pisani 3 : L'intrt primordial de la numrisation des livres est la mise du savoir la disposition de populations qui sans cela n'y auraient pas accs, notamment dans le sud . Rapidit de la copie - dans le domaine numrique, il est possible de recopier fdlement ou de transfrer des donnes une vitesse trs leve. Le futur transfert des collections sur de nouveaux supports sera beaucoup plus rapide que le passage initial la numrisation. Qualit - elle tient la possibilit de numriser un document avec une trs forte rsolution, selon les besoins. Il est galement trs facile de raliser des copies de qualit infrieure partir de la copie de haute qualit chaque fois que ncessaire.

http://pisani.blog.lemonde.fr/pisani/2006/06/plein_de_bonnes.html, (visit le 18/08/2007) version du 16/09/09 page 3/71

Cours numrisation (c) JMM 2009-2010

Espace ncessaire - la haute densit du stockage de l'information sur les supports numriques peut se traduire par une rduction majeure de l'espace de rayonnage ncessaire. D'o, galement, une rduction de l'espace ncessitant une rgulation climatique conforme aux normes archivistiques et, en consquence, un abaissement des frais de fonctionnement. Par ailleurs, un signal numrique peut tre fortement compress avec ou sans perte d'information. Une compression avec perte d'information peut s'effectuer sans perte d'information sensible , c'est--dire dtectable. Une information numrique est facilement stockable sur des supports dont la capacit augmente et dont le cot et la taille diminuent rapidement au fl des annes. Futurs transferts de la collection - si une collection est copie sur un support analogique, le cot de ses futurs transferts sera identique celui de cette premire reproduction. Si elle est copie sur un support numrique, on pourra, lors des futurs transferts, tirer parti des possibilits de recopie automatise inhrentes au numrique. Le transfert de collections de donnes numriques n'est pas un phnomne nouveau. Les milieux bancaires, par exemple, ont transfr plusieurs fois avec succs leurs banques de donnes. Leur exprience peut offrir des enseignements utiles pour le transfert de l'information textuelle, visuelle et sonore. Incitation entreprendre des recherches les chercheurs seront d'autant plus enclins exploiter un fonds qu'il sera numris, avec tous les avantages que cela lui procure. La numrisation facilite et rend plus effcace la recherche par les conservateurs, les tudiants, les enseignants, les rudits, les chargs de cours l'universit, les chercheurs et les spcialistes, car elle permet d'tudier des documents disparates dans des contextes nouveaux. Il y a davantage d'exploration de ressources lies aux objets exposs, et l'information propos du muse et de ses collections importantes s'en trouve amliore. Les images numrises peuvent tre utiles aux professionnels et chercheurs de muses du monde entier qui explorent les liens, les ressemblances et les diffrences avec les travaux d'autres tablissements. Constitue une copie de sauvegarde/ de remplacement Le document numrique constitue une copie de sauvegarde de l'original. La numrisation offre une stratgie de remplacement pour des objets, par exemple des flms et des archives sonores, en voie de dtrioration. Amlioration de la lisibilit des documents : le traitement d'images peut amliorer la lisibilit de documents dfrachis, tachs voire carrment illisibles. La transmission numrique est plus rsistante que l'analogique aux dfauts de transmission puisqu'il sufft de reconnatre, la rception du message, sa prsence et non sa forme pour le reconstituer ; la puissance ncessaire pour la transmission est donc plus faible et les quipements de rception souvent plus petits. On peut galement vrifer la bonne transmission par des techniques de chiffrages telles que les checksums. Par ailleurs, le numrique permet de transmettre tous les signaux de la mme manire, quelle que soit la nature de l'information (voix, donnes, images...); les quipements de transmission sont donc les mmes pour le tlphone ou la tlvision par exemple. Le volume ou le dbit d'un signal transmis numriquement peut galement tre fortement rduit par compression, sans perte (loseless) ou sans perte sensible de la qualit, en supprimant toutes les informations inutiles (redondantes ou imperceptibles par les sens humains). Dans une transmission vido par exemple, au lieu de traiter numriquement 24 images par seconde, on ne traite que la diffrence entre deux images conscutives; cette diffrence tant la plupart du temps trs faible, plus de 98% de l'information peut tre laisse de ct sans perte de qualit des images (format MPEG-4).

Conclusion technique : La numrisation apporte ainsi de nombreux avantages, facilitant le traitement et le stockage des informations et offrant une qualit de transmission incomparable. Ces qualits doubles de son indpendance par rapport la nature de l'information transmise expliquent la gnralisation de l'emploi des technologies numriques aux dpens des analogiques. Un billet du blog Figoblog4 dtaille un ensemble de raisons pour lesquelles on peut vouloir numriser en bibliothque. L'auteur distingue plusieurs raisons :

la valorisation d'un fonds : Avantage : c'est joli, ludique, attrayant, a donne une bonne image de la bibliothque et a plat aussi aux gens qui ne sont pas spcialistes. Inconvnient : ce genre d'interface est inutilisable par des personnes qui s'intressent au mme document d'autres fns. la numrisation " la demande" ou spcialise : Avantage : le public est dj cibl et on rpond prcisment ses attentes donc le succs est plus facilement assur, au moins auprs d'un nombre limit de personnes. Inconvnient : c'est toujours inutilisable par des personnes qui s'intressent au mme document d'autres fns (typiquement, c'est bien de ne numriser que des enluminures mais celui qui travaille sur le texte du manuscrit se retrouve le bec dans l'eau). Ou alors cela ne couvre qu'un spectre documentaire/thmatique trs limit. la numrisation de sauvegarde : Avantage : une grande facilit de consultation par rapport l'ancien support de substitution, qui n'offrait que des capacits limites de lecture simultane et une "exprience de lecture" peu
http://www.fgoblog.org/document1637.php (visit le 19/07/2007) version du 16/09/09 page 4/71

Cours numrisation (c) JMM 2009-2010

optimise. Inconvnient : pas de public assur pour consulter cette numrisation, et comme les originaux sont en voie de disparition, il faut qu'elle soit fable, authentique et prenne car c'est bientt (ou dj) le seul moyen d'accder ces documents l.

la bibliothque numrique : Avantage : c'est un service cohrent avec une politique documentaire, des missions, des services, etc. capable en principe de rpondre aux besoins d'un public diversif. Inconvnient : c'est trs compliqu et coteux organiser. Mme trs trs compliqu.

c.
I.

Inconvnients, limites et risques de la numrisation


LE COT

C'est un des reproches souvent fait aux projets de numrisation. Les points soulevs ci-aprs5 sont parfois judicieux, parfois exagrs. Ils mritent en tout cas qu'on sache y rpondre le cas chant.

Investissement initial - le matriel ncessaire pour effectuer la numrisation peut tre coteux et demande souvent tre utilis par des oprateurs qualifs pour donner les meilleurs rsultats. Contraintes de rangement - on croit souvent que les supports utiliss pour stocker l'information numrise devront tre conservs dans un environnement trs propre et trs stable sur le plan climatique, ce qui accrotra la consommation d'nergie imputable la collection. L'amnagement de cet espace de rangement l'atmosphre stabilise exigerait en outre un investissement initial. Frais de fonctionnement - on craint qu'une collection numrise ne doive elle aussi tre frquemment recopie, avec les cots de main-d'oeuvre, d'nergie et d'achat de nouveaux supports que cela implique et que la survie de l'information numrique ne soit pas garantie au-del de deux trois ans si elle est stocke sur bande magntique et de trois cinq ans si elle est conserve sur disque optique. Cots de prparation - un document doit tre prpar (parfois de faon destructrice, comme le massicotage des ouvrages avant leur passage par le scanner) pour la saisie numrique. Outre l'ventuelle prparation physique requise, le contenu initial doit en tre class et index et les rfrences textuelles introduites dans la base de donnes par du personnel spcialis, oprations qui peuvent tre coteuses. On pense que la copie de l'information des supports existants sur de nouveaux supports implique d'importantes contraintes de maind'oeuvre. LE RISQUE IMPORTANT DE MAUVAIS CHOIX TECHNOLOGIQUES Lors de la numrisation. Des erreurs notamment lors du choix de l'chantillonnage ou du format de fchier (formats propritaires) peuvent empcher une exploitation future des donnes. Lors de la gestion des documents numriques. Des erreurs lors du stockage (supports, conditions de stockage) et lors de la prservation des documents peuvent conduire des pertes svres de donnes (cas des donnes sur les vols lunaires de la NASA). Ne jamais oublier que les dbuts de l're informatique ont t marqus par la plus grande perte de donnes de l'histoire de l'humanit. LA PERTE DE REPRES PHYSIQUES

II.

III.

Une partie de l'information d'un document est contenue dans le support physique. La numrisation ne retient donc pas tout : l'odeur, le poids, la texture ne sont pas reproduits comme le dmontre ce compte-rendu d'exprience concernant le petit Cartulaire 6 : Le traitement de l'image connat aussi ses limites, qui sont celles de la source. Comme plusieurs microflms ont beaucoup vieilli, il serait souhaitable que la numrisation haute rsolution et en couleur soit faite directement sur les manuscrits l'aide d'un appareil-photo numrique. De plus, le dchiffrement des critures cursives, bien que facilit par la possibilit d'agrandir la taille de l'image souhait, n'est gure simplif. Les changements dans les teintes d'encre demeurent galement imperceptibles. Le reprage de mots dans la source est aussi impossible si ceux-ci n'ont pas fait l'objet pralable d'une transcription. Aucune machine ce jour ne peut donc remplacer l'oeil du spcialiste.

5 6

Tir de http://www.unesco.org/webworld/mdm/administ/fr/MOW_fnD.html#3 (visit le 19/07/2007) http://lemo.irht.cnrs.fr/40/mo40-15.htm#P1374_210298 (visit le 19/07/2007) version du 16/09/09 page 5/71

Cours numrisation (c) JMM 2009-2010

IV.

UNE MOINS GRANDE FACILIT D'ASSIMILATION DES CONTENUS

Une moins grande facilit d'assimilation des contenus par rapport aux mdia analogiques du fait de la non-linarit de la lecture dans les documents multimdia. Ce point est discut, mais il faut peut-tre le considrer dans la problmatique plus gnrale des limites actuelles des interfaces d'accs l'information.

d.
I.

Quelques grands programmes de numrisation


GOOGLE BOOKS

L'extraordinaire projet de Google7, qui a fait couler beaucoup d'encre ... lectronique ! Pour suivre le dossier mouvement de ce projet, on peut lire avec intrt le dossier l'Atelier de Jean de Chambure8. Depuis ce dossier, la partie semble bien mal engage par Europanea... Dpart de Jeaneney, et les Vaudois qui, les premiers europens, rompent le front du refus et signent avec Google. Cf l'article Les Vaudois vendent leur patrimoine crit Google 9 :
Quelque 100000 ouvrages, tous libres de droits, du XVIIe au XIXe sicle, seront digitaliss Lausanne selon un calendrier dfni dans un mois. Cette numrisation sera presque entirement fnance par Google, ce qui reprsente environ 12,5millions de francs. La BCU ne payera que le traitement des fchiers pour la consultation et l'engagement d'une personne qui suivra l'aventure jusqu'au bout. Mais la diffrence avec les projets publics de bibliothque sur Internet, c'est que les fchiers de livres numriss deviennent possession de Google. La dcision de la BCU est indite: jusqu'ici, toutes les bibliothques francophones, qu'elles soient de France, de Belgique, de Suisse ou du Canada s'taient ranges derrire les projets publics concurrents l'offensive Google, c'est--dire la Bibliothque numrique francophone et Europeana, le noyau embryonnaire de bibliothque numrique europenne lance en mars dernier par la France, la Hongrie et le Portugal. En concluant un partenariat avec Google, la BCU ouvre une brche et manifeste tout haut l'impatience que d'autres ressentent face la lenteur des projets de numrisations publics: Le partenariat avec Google s'annonce autrement plus srieux que le projet europen , dclare Hubert Villard, directeur de la Bibliothque cantonale et universitaire vaudoise.
10 Voir aussi, en juillet 2008, la dcision de la ville de Lyon de faire appel Google pour des projets de numrisation

Lobjectif de la BM de Lyon est de numriser 500000 ouvrages sur les 1 350 000 de son fond ancien, dans un dlai de 10 ans. Il sagit de documents antrieurs au XX sicle et libres de droits. Google devra les numriser la fois en mode image et en mode texte, dans leur intgralit. Linternaute pourra alors avoir accs aux informations par le mode classique de recherche par page de Google mais pourra galement tlcharger les uvres intgralement. En change, Google devient propritaire de ces fchiers numriques et dispose dune exclusivit commerciale pour leur exploitation durant 25 ans.

Voir enfn les rumeurs (fondes infondes) de collaboration entre la BNF et Google. Qui l'eut cr ! II. GALLICA

Serveur de consultation distance des collections numrises de la Bibliothque Nationale de France 11. Les fonds numriss constituent une bibliothque patrimoniale et encyclopdique, avec des ouvrages numriss en mode image, et en mode texte, des images fxes, des documents sonores (fonds du domaine public). Ces documents sont imprimables et tlchargeables par le lecteur, dans le cadre d'un usage strictement priv. Gallica offre (au 3/09/2009)12 : Documents moissonns :

bibliothques partenaires : 5 834 partenaires commerciaux : 12 133 Total : 17 967 Imprims


http://books.google.com/ (visit le 19/07/2007) http://www.atelier.fr/type/bataille,livre,internet-30041-Dossier.html (visit le 19/07/2007) Le temps.ch du 16 mai 2007 http://libelyon.blogs.liberation.fr/info/2008/07/la-bibliothque.html (visit le 25/07/2007) http://gallica.bnf.fr/ (visit le 19/07/2007) http://gallica.bnf.fr/content?lang=fr#stats version du 16/09/09 page 6/71

Documents de la BnF

7 8 9 10 11 12

Cours numrisation (c) JMM 2009-2010

124 776 monographies, dont 69 801 consultables en mode texte 3 751 titres de priodiques, reprsentant 572 380 fascicules dont 238 905 en mode texte Documents iconographiques : 38 494 lots, reprsentant 111 644 images Cartes et plans : 5 009 documents Documents sonores : 1 056 documents Documents manuscrits : 4 164 documents Musique notes : 2 127 documents

Le taux mensuel de consultation des documents a pass la barre du million en mars 2006. III. PROJET NUMDAM DE LA CELLULE MATHDOC GRENOBLE

Numrisation de Documents Anciens Mathmatiques 13 : dans le but de soutenir les revues de mathmatiques, le programme NUMDAM met en place un libre accs aux donnes bibliographiques et au texte des articles qui y sont parus. Pour chaque revue concerne, la totalit des volumes publis jusqu'en l'an 2000 a t convertie au format numrique, ce qui reprsente actuellement plus de 560 000 pages numrises et 27 000 articles mis en ligne. Les articles eux-mmes sont disponibles pour consultation en ligne l'issue d'un dlai (crneau mobile) pendant lequel ils sont rservs aux seuls abonns. Il est possible de rechercher directement un article par nom d'auteur, mots du titre ou mots cls prsents dans le texte. Il est galement possible de feuilleter les sommaires de l'ensemble des volumes. Voir les collections sur la page ddie du site14. IV. INTERNET ARCHIVE

Internet Archive15 est une organisation but non commercial fonde dans le but d'tre la bibliothque d'internet . Son but est de s'adresser aux chercheurs, aux historiens, aux tudiants, aux personnes prsentant un handicap et au grand public pour leur offrir des collections historiques qui existent en format numrique. Fonde en 1996, puis refnance en 1999, cette organisation connu une grande croissance et inclut maintenant des collections consquentes. Elle propose des textes, de l'audio, des flms, des logiciels ainsi que des pages web archives. Elle travaille fournir des services plus spcialiss lis l'enseignement et la formation et l'accs aux collections par des personnes prsentant un handicap. V. LE GRAMOPHONE VIRTUEL

Enregistrements historiques canadiens, site Web multimdia en pleine croissance consacr aux dbuts de l'enregistrement sonore au Canada. Dot d'une base de donnes d'images et d'enregistrements audionumriques canadiens, ainsi que de biographies de musiciens et d'un rsum de l'histoire de la musique et de l'enregistrement sonore au Canada, Le Gramophone virtuel offre aux chercheurs et aux mordus de musique un aperu dtaill de l'poque des 78 tours au Canada.16 VI. EXEMPLES D'INTERFACES DE CONSULTATION

L'extraordinaire Cit de Dieu par la Bibliothque municipale de Nantes17, voir pour le ralisme du tourner de

pages et pour le zoom trs puissant.

Online Gallery18, projet de la British Library, ce magnifque exemple pousse le dtail trs loin : c'est la souris qu'on

tourne les pages de superbes manuscrits.

Deux exemples d'utilisation d'une loupe magique (retranscrivant le texte issu d'critures manuscrites) : le Journal

de Martha Ballard19 et Bill of sale for slave named Kate20.

Multi-touch screen interface demonstration21 :

Fluidbook22 : une interface spcialise dans la prsentation de catalogues.

13 14 15 16 17 18 19 20 21 22

http://www.numdam.org (visit le 19/07/2007) http://www.numdam.org/spip.php?rubrique4 (visit le 28/8/2009) http://www.archive.org (visit le 19/07/2007) http://www.collectionscanada.ca/gramophone/index-f.html (visit le 19/07/2007) http://arkhenum.picturelan.com/bm_nantes_oeb/ (visit le 19/07/2007) http://www.bl.uk/onlinegallery/ttp/ttpbooks.html (visit le 19/07/2007) http://dohistory.org/diary/exercises/lens/ (visit le 19/07/2007) http://memorialhall.mass.edu/activities/media.jsp?itemid=7797&img=0 (visit le 19/07/2007) http://www.youtube.com/watch?v=89sz8ExZndc (visit le 19/07/2007) http://www.fuidbook.com/demo/fr/ (visit le 28/08/2009) version du 16/09/09 page 7/71

Cours numrisation (c) JMM 2009-2010

VII.

LISTES DE BIBLIOTHQUES NUMRIQUES

D'aprs l'excellent article23 du blog Figoblog :


List of digital library projects24 Liste internationale du blog NetBib25 The British Columbia International Digital Library26, une liste de listes A selection of web accessible collections27 (Harvard University Library)

3.
a.
I.

La numrisation ?
Quelques dfnitions
UN SIGNAL ANALOGIQUE

Un signal analogique est un signal qui reproduit l'analogue (qui transpose) un phnomne physique, tel qu'une onde mcanique (pour le son), une onde lectromagntique (pour l'image). C'est une fonction continue dans le temps ou dans l'espace. Remarquez que les signaux analogiques ne sont pas forcment perus par nos sens : on peut numriser par exemple le chant des baleines dont les frquences ne se situent pas dans l'intervalle de celles perues par l'homme (20 20 kHz environ). Exemple : analyse d'un signal analogique audio (musique classique). On analyse le signal audio reproduit par un systme analogique (radio FM, platine disque 33 tours, ...) et on reprsente ici la puissance instantane du signal en fonction du temps, tout d'abord en vue gnrale, puis en vue agrandie pour voir quoi ressemble le signal.

Illustration 1: Signal audio - vue gnrale

Puis on zomme sur une partie du signal ...

23 24 25 26 27

http://www.fgoblog.org/document933.php http://en.wikipedia.org/wiki/List_of_digital_library_projects (visit le 19/07/2007) http://wiki.netbib.de/coma/DigiMisc (visit le 19/07/2007) http://bcdlib.tc.ca/ (visit le 19/07/2007) http://digitalcollections.harvard.edu/ (visit le 19/07/2007) version du 16/09/09 page 8/71

Cours numrisation (c) JMM 2009-2010

Illustration 2: Signal audio - vue agrandie

II.

LA NUMRISATION

La numrisation est la conversion d'un signal analogique en un signal numrique en fonction de deux paramtres : l'chantillonnage et la quantifcation28. C'est conceptuellement une modlisation mathmatique de la ralit. Le terme anglais est digitization, d'o vient le franglais digitalisation qui est proscrire. La numrisation d'une image est parfois effectue l'aide d'un scanner. On parle alors, toujours improprement d'un scan , d'un scannage , etc... A proscrire galement ! III. L'CHANTILLONNAGE

L'chantillonnage consiste remplacer une fonction continue dans le temps ou dans l'espace par la suite des valeurs qu'elle prend en des instants ou des zones discret(e)s priodiques. Ces valeurs suffront pour reconstituer la fonction dans une tape ultrieure. L'image classique est celle du stroboscope, qui permet de dcomposer les mouvements (en fait de les chantillonner). La mesure effectue un instant/lieu donn est appele un chantillon. Prenons un autre exemple : imaginons qu'on veuille numriser l'image d'un parterre de feurs. On commence par quadriller l'image de faon suffsamment fne, de manire ce que dans chaque petit carr on ne trouve qu'une couleur. Chaque carr est appel chantillon. IV. LA QUANTIFICATION

Il faut maintenant dcider de la faon de mmoriser la couleur dans chaque carr. On se dfnit un ensemble de couleurs prcises permises, par exemple : {0rouge, 1bleu, 2vert, 3jaune}. En fonction du lieu de mesure, on relve la couleur. Si cette couleur se rapproche d'un vert, on choisit la valeur vert , si la couleur est plus proche d'un jaune, on choisit jaune . On a le choix ici entre 4 valeurs, pas plus, pas moins. Une fois tous les chantillons analyss et un choix de valeur effectu, on dispose donc d'une numrisation de l'image du parterre de feurs ... en quatre couleurs. Le rsultat sera sans doute mdiocre, comme vous pouvez l'imaginer ! Calculons la place ncessaire pour enregistrer cette information. On dispose de 4 valeurs donnes, et l'information se code en binaire en informatique (base 2, seuls les chiffres 0 et 1 sont autoriss). Il faudra donc un nombre binaire deux chiffres pour coder le choix :

0rouge 1bleu 2vert 3jaune

cod cod cod cod

00 01 10 11

Ce nombre binaire deux chiffres, exprim en bit, permet de coder la valeur permise en un chantillon. L'enregistrement de l'information issue de la numrisation de ce parterre de feurs ncessite donc 2 bits par chantillon. La taille du fchier issu de la numrisation est donc de 2 bits x nombre d'chantillons.

28 On considre ici le processus Pulse-code modulation (PCM). Cf http://en.wikipedia.org/wiki/Pulse-code_modulation pour plus d'explications. D'autres processus de numrisation existent, plus complexes, et ne seront pas examins dans le cadre de ce cours. Cours numrisation (c) JMM 2009-2010 version du 16/09/09 page 9/71

On comprend immdiatement dans cet exemple que plus le nombre de valeurs permises est important, plus fdle est l'enregistrement du signal. On comprend aussi que plus l'on choisit de valeurs permises, plus il faudra de place pour stocker, dans chaque chantillon, la valeur choisie. Si maintenant on choisit un nombre de valeurs permises plus important (exemple : 1024, cod en 10 bits), la taille fnale de la numrisation sera 5 fois plus importante, et le rsultat obtenu beaucoup plus fdle. La quantifcation est l'opration par laquelle on examine l'chantillon mesur et l'on choisit la valeur la plus proche mmoriser parmi un ensemble prdfni des valeurs permises. V. UN DOCUMENT NUMRIQUE

Un document numrique est un fchier informatique (et donc reprsent la base par une suite de 0 et de 1) dont le contenu, structur selon les spcifcations d'un format de fchier, reprsente une information comprhensible par un humain et/ou par un ordinateur.

b.

Un Exemple

Prenons la numrisation d'un signal audio (agrandi depuis les illustrations prcdentes). En ordonne on indique la puissance instantane du signal, en abscisse le temps. Le signal se prsente ainsi :

on chantillonne ce signal une frquence donne : c'est un dcoupage temporel.

... et on mesure la valeur du signal chaque dcoupe.

Cours numrisation (c) JMM 2009-2010

version du 16/09/09

page 10/71

chaque intersection, on prend la valeur en ordonne. On obtient donc une srie de valeurs comme dans le tableau suivant (donnes compltement fctives) dans lequel on mesure chaque milliseconde une valeur (VM) (par exemple lectrique).

T (ms) 0 VM 763

1 783

2 874

3 885

4 910

5 921

6 911

7 917

8 903

9 901

10 902

11 904

12 876

... ...

Chaque valeur mesure est ensuite ramene la valeur autorise la plus proche.

Dans le tableau suivant, (rappel, en donnes fctives) on compare les valeurs mesures (VM) avec les valeurs autorises et on choisit les valeurs autorises les plus proches (VC) (ici les multiples de 10). En vert sont reprsentes les valeurs qui ne changent pas (ou peu) par cette opration, en rouge celles qui changent beaucoup.
T (ms) VM VC diff. 0 763 760 3 1 783 780 3 2 874 870 4 3 885 890 5 4 910 910 0 5 921 920 1 6 911 910 1 7 917 920 3 8 903 900 3 9 901 900 1 10 902 900 2 11 904 900 4 12 876 880 4 ... ... ...

Les valeurs autorises sont celles qui sont sauvegardes dans le fchier numrique. C'est la modlisation numrique du signal analogique initial. Un fchier numrique en rsulte.

Cours numrisation (c) JMM 2009-2010

version du 16/09/09

page 11/71

Effectuons maintenant l'opration inverse, celle de la reproduction de ce signal numris. Comme le dispositif humain de perception des sons est analogique, il faut reconvertir ce signal numris en signal analogique. La suite de valeurs numriques est donc convertie en un nouveau signal analogique :

... qu'on peut comparer avec le signal analogique initial pour faire apparatre les approximations et les erreurs dues la numrisation :

Cours numrisation (c) JMM 2009-2010

version du 16/09/09

page 12/71

Les facteurs qui infuent sur la qualit de la modlisation de ce signal sont de deux ordres : Le frquence d'chantillonnage et la prcision de la quantifcation. I. LA FRQUENCE D'CHANTILLONNAGE.

Elle s'exprime en Hertz, l'inverse de la seconde. Plus celle-ci est leve (plus la priode est faible), meilleure est la prise en compte des vnements rapides, et meilleure est la fdlit du signal numrique par rapport au signal analogique. Mais comment choisir cette frquence ? En pratique, on applique le thorme de Shannon (certains disent qu'il s'agit de celui de Nyquist) qui prcise que la frquence minimale d'chantillonnage d'un signal doit tre au moins le double de la frquence maximale contenue dans le signal chantillonner. Soit Fech la frquence d'chantillonnage, et stipule que :

Fmax_signal la frquence maximale du signal numriser, ce thorme

Fech 2 * Fmax_signal
Autre formulation : Pour ne pas perdre d'information dans un signal la distance entre deux chantillons doit tre infrieure la demi-priode du signal. Exemple pour la musique, la frquence maximale audible est de 20 kHz, en comptant trs large. La frquence d'chantillonnage des CD-audio, de 44,1 kHz, respecte bien ce thorme. Application la voix en tlphonie : frquence maximale : 3700 Hz. Quelle frquence d'chantillonnage minimale choisir ?

Cours numrisation (c) JMM 2009-2010

version du 16/09/09

page 13/71

II.

LE SOUS-CHANTILLONNAGE

On parle de sous-chantillonnage si la frquence d'chantillonnage n'est pas suffsante pour reprsenter de faon adquate le signal. Le rsultat issu d'une reconversion en analogique n'a alors plus rien voir avec le signal de dpart. Pour une numrisation audio, cela peut se traduire par de forts chos, des repliements de bandes, etc. trs audibles.

Dans le schma ci-dessus, le signal d'origine est numris avec un chantillonnage trop faible. Le signal qui est reconstruit partir de la numrisation est notoirement diffrent du signal original. l'inverse, un sur-chantillonnage consiste prendre trop d'information, beaucoup plus qu'il n'en faut pour reprsenter de faon adquate le signal analogique. Il n'en rsulte pas forcment une meilleure qualit sonore dtectable, mais en tout cas une quantit de donnes beaucoup plus importante traiter. Ce thorme peut tre appliqu aux images : pour ne pas perdre de dtails dans une image, la taille des pixels doit tre moins de (ou gale ) la moiti du plus petit dtail de l'image. III. LA PRCISION DE LA QUANTIFICATION.

Elle doit tre adapte au signal numris, c'est--dire que la valeur analogique maximale du signal numriser doit tre code par la valeur numrique maximale, idem pour les valeurs minimales. Plus elle comprend de valeurs diffrentes, plus le codage sera prcis, ... mais plus l'information sera volumineuse stocker. Exemple : le signal audio d'un CD-audio est cod sur 16 bits sur chaque voie, soit chaque chantillon strophonique.

2216=265536

valeurs

Exercice : calculer la taille non compresse d'un morceau de musique de 3 minutes cod sur un CD-audio :

3x60 = 180 secondes Chaque seconde, le signal est code 44100 fois sur 2 fois 16 bits. La taille du morceau est donc de : 180x44100x2x2 soit environ 30 Mo !

Exercice 2 : combien peut-on placer de minutes de musique sur un CD-audio ?

Cours numrisation (c) JMM 2009-2010

version du 16/09/09

page 14/71