Traitement Par Le Contenu Des Signaux Musicaux: Le Son Dans Tous Ses États - Ina

TOUT SAVOIR SUR L'INA LES SITES DE L'INA SUIVRE L'INA SUR ENTREPRISE CONTACT FR
ENSEIGNEMENT SUPRIEUR FORMATION PROFESSIONNELLE EXPERTISE ET CONSEIL LA RECHERCHE PUBLICATIONS RENCONTRES
Publications E-dossiers de l'audiovisuel E-dossier de l'audiovisuel : le son dans tous ses tats Traitement par le contenu des signaux musicaux
Traitement par le contenu des signaux musicaux

Par Hugues Vinet, directeur scientifique de lIrcam
Hugues Vinet est depuis 1994 directeur scientifique de l'Ircam, (Institut de recherche et coordination
Acoustique/Musique) dont il dirige le dpartement Recherche et Dveloppement. Ses domaines d'intrt portent
notamment sur le traitement du signal audionumrique, les interfaces homme-machine, lingnierie des
connaissances musicales et lpistmologie des relations entre recherche scientifique, dveloppement
technologique et cration musicale. Il assure la coordination de projets europens (Cuidado, SemanticHIFI) et
nationaux (crins, coute, Voxstruments, Sample Orchestrator 1&2). De formation scientifique et musicale, il a
prcdemment travaill au Groupe de recherches musicales de l'Institut national de l'audiovisuel o il a anim de
1987 1994 les activits de recherche et dveloppement, ayant notamment abouti la ralisation des premires
versions des logiciels GRM Tools, Acousmographe et Midi Formers. Il est membre de diverses instances
scientifiques et depuis 2006, Vice-Prsident Europe de lInternational Computer Music Association.
________________________________
Les technologies musicales font largement appel des fonctions de traitement sonore, quil sagisse
dinstruments lectroniques ou logiciels, doutils de cration et de production ou dinterfaces de
navigation et de lecture. Longtemps limites des algorithmes oprant de manire globale et
indiffrencie sur tous types de sons, les recherches rcentes dans ce domaine tendent sorienter vers
des traitements par le contenu, reposant sur une analyse de leurs caractristiques et structures internes.
Ces avances ouvrent de nombreuses perspectives nouvelles, tant en matire de manipulation intuitive
et de possibilits cratives que damlioration qualitative de traitements existants ou dautomatisation
doprations fastidieuses. Hugues Vinet, directeur scientifique de lIrcam (Institut de recherche et
coordination Acoustique/Musique), propose ici une vue densemble de ltat de lart du domaine, en en
prcisant les approches et problmatiques et en les illustrant par des exemples rcents dapplications,
notamment issus des recherches de lIrcam.
___
_____________________________
Le signal musical, capt par un microphone ou issu dun enregistrement, est le support dun contenu sonore
fortement structur, qui rsulte dune squence doprations techniques complexes combinant lutherie,
composition, interprtation, prise de son, postproduction, mixage et mastering . Si lessentiel de cette
organisation sonore est perceptible lcoute, sa modification lest plus difficilement, les diffrentes
reprsentations intermdiaires des contenus musicaux partitions, donnes dinterprtation et enregistrements
dinstruments et composantes sonores isols ntant pas codes ni disponibles sparment dans le signal
rsultant. Ainsi, les possibilits de manipulation de tels contenus enregistrs se sont longtemps limites des
traitements lmentaires volume, quilibre spectral, balance, effets, rverbration artificielle ou des
algorithmes de traitement plus labors destins la cration, tels que ceux des modules GRM Tools1,
imprimant leur transformation lintgralit du contenu du signal. De plus, laccs aux structures temporelles de
sons enregistrs se rduit gnralement la position dun index de lecture sur un segment et, au mieux, dans
les logiciels ddition, une reprsentation des amplitudes du signal au cours du temps.
Dans ltat de lart actuel de la recherche, les traitements parmi les plus complexes applicables tous types de
sons, et effectuant la modification de paramtres musicaux avec une qualit satisfaisante pour des applications
professionnelles, sont raliss par une modlisation des signaux reposant sur le vocodeur de phase, ou
transforme de Fourier court terme [Allen and Rabiner, 1977 ; Moorer, 1978] et permettent des transformations
telles que la transposition (modification de la hauteur sans changement de la dure) ou la compression-
expansion temporelle ou time stretching (traitement symtrique li un changement de la vitesse de lecture
sans altration du contenu frquentiel). Ces traitements sappliquent globalement lensemble des lments
sonores constitutifs du signal et offrent un niveau de contrle adapt lutilisateur musicien, en lien direct avec
les paramtres de lcriture (hauteurs, tempo) 2 .
TRAITEMENT PAR LE CONTENU ET NIVEAUX DABSTRACTION DES INFORMATIONS

MUSICALES
Plus gnralement, la ralisation de fonctions de traitement adaptes aux usages musicaux implique quelles se
fondent sur un contrle de haut niveau notion que nous nous proposons de prciser dans la suite en lien
direct avec les paramtres constitutifs de la composition musicale. Il peut sagir soit pour certaines applications
cratives dextraire certains paramtres dun son pour les appliquer un autre ou, le plus souvent, de
transformer un son en fonction de critres relevant directement du vocabulaire musical.
Lanalyse de cette problmatique peut sappuyer sur une typologie que nous avons propose des
reprsentations numriques des informations musicales, organisant celles-ci en niveaux dabstraction croissants,
les niveaux physique , signal , contrle , symbolique et smantique (voir Figure 1) [Vinet, 2003].
Le niveau symbolique, entendu au sens informatique, comprend les structures relatives des chelles de
valeurs discrtes des paramtres du sonore (hauteurs, intensits, dures et occurrences temporelles) et le
niveau smantique sattache toute description textuelle du contenu musical, leur combinaison constituant
lensemble des informations contenues dans la partition. Quant au niveau contrle, il rend compte de laction
corporelle de linterprte, instanciant les paramtres musicaux sous forme continue, tant dans leur temporalit
que dans leurs valeurs. Lordre croissant dabstraction de ces niveaux est en rapport direct avec la dcroissance
de la quantit dinformation par unit de temps et de la bande passante ncessaire au codage des
reprsentations correspondantes. Les niveaux dabstraction levs font rfrence des connaissances
implicites, relevant de thories musicales ou de conventions culturelles, alors que les reprsentations de plus
bas niveau, plus volumineuses, vhiculent en elles-mmes lintgralit des informations ncessaires. La
conversion entre niveaux diffrents est ainsi assimilable, dans le sens croissant dabstraction, un processus
danalyse ou extraction dinformation et dans le sens dcroissant, un processus de synthse ou gnration
dinformation, la descente du contrle au signal correspondant notamment une notion largie dinstrument,
comme nous le verrons dans la suite.
Figure 1 : les niveaux de reprsentation des informations musicalesIrcam.
Sous lclairage de ce modle, notre problmatique se traduit le plus souvent par la ncessit daccs des
paramtres de transformation de signaux sonores au niveau symbolique, impliquant dabord une phase
danalyse (signal/symbolique), un traitement dans le domaine symbolique puis une rgnration du signal par
synthse (symbolique/signal). Si la transformation concerne les paramtres continus de linterprtation (vibrato
et trmolo, variation de tempo, crescendo/decrescendo), la mme structure danalyse/synthse sapplique entre
les niveaux signal et contrle. Il est noter que la phase danalyse tend reconstituer les reprsentations
intermdiaires issues des tapes de production technique mentionnes plus haut.
Les verrous scientifiques et technologiques actuels en traitement de signal audio lis la ralisation des
traitements par le contenu concernent en premier lieu les problmatiques danalyse, dont la section suivante
propose une synthse sous forme dtat de lart rsum.
PROBLMATIQUES, STRATGIES ET OUTILS DANALYSE
Lanalyse des signaux sonores fait intervenir les notions suivantes :
- La segmentation dun flux sonore consiste le dcouper en segments temporels dont les bornes sont
dtermines par des vnements particuliers tels que dbut et fin de note - ou dfinissent un intervalle
temporel de stabilit dun ou plusieurs paramtres sonores (hauteur, intensit, instrumentation, etc.) ; un cas
particulier concerne les segmentations rgulires relatives aux musiques pulses. La segmentation peut tre
simple ou se dcomposer de manire hirarchique pour reflter les structures temporelles imbriques inhrentes
la musique (parties et mouvements, mesures, rythmes).
- Les descripteurs, notion introduite dans la norme MPEG7 [MPEG7 2002], rendent compte des diffrentes
caractristiques du son : hauteur, intensit, contenu spectral, tempo, instrumentation, etc. Leur contenu peut,
selon les cas, prendre plusieurs formes, numrique, textuelle nom dinstrument par exemple - voire celles de
structures plus complexes. Il peut tre dfini comme une fonction du temps ou comme une constante sur un
segment donn. En lien avec la section prcdente, on distingue les descripteurs de bas niveau, sous forme
numrique et facilement extractibles automatiquement par analyse de signal [Peeters, 2004, 2011b] des
descripteurs de haut niveau, en lien avec des grandeurs et catgories pertinentes du point de vue de la cognition
humaine, mais dont lextraction automatise partir du signal peut prsenter une difficult variable, selon
notamment la nature et le caractre plus ou moins explicite de la relation psychophysique existant entre
grandeur mesure et percept [Susini, 2012].
- Les possibilits danalyse de flux sonores en temps rel, notamment issus de signaux produits en direct,
sont beaucoup plus contraintes, en termes de latence admissible, de puissance de calcul et de ncessit de
prise en compte des informations de manire causale, cest--dire au fur et mesure quelles arrivent, que celles
danalyses en temps diffr de sons prenregistrs.
Deux cas principaux peuvent tre distingus selon quils concernent lanalyse :
- de sons monophoniques, cest--dire issus dune seule source acoustique ou lectronique. Lorsquen
particulier, celle-ci est un instrument de musique, lextraction de ses principaux descripteurs musicaux
hauteur, intensit, attributs du timbre comme fonctions continues du temps, de mme que sa segmentation en
notes sont ralisables avec de bonnes performances en termes de cot de calcul et de taux derreur, dans
certaines conditions de prise de son ;
- de sons polyphoniques, cest--dire comportant une superposition de sons diffrents. Il serait idalement
souhaitable de dcomposer la scne sonore en autant de flux monophoniques pour les traiter indpendamment
et leur appliquer les analyses correspondantes, mais ltat de lart de la recherche en sparation de sources ne
le permet pas dans le cas gnral. Les performances danalyse samliorent en fonction des informations
connues a priori, telles que le nombre et la nature des sources en prsence [Vincent, 2010]. Lorsquune
reprsentation de la partition est connue, des techniques dalignement automatique identifient avec une bonne
prcision le positionnement temporel de chaque note joue dans le signal audio [Kaprykowsky, 2006].
Laboutissement rcent de travaux de recherche sur lanalyse de frquences fondamentales multiples permet
depuis peu une transcription polyphonique de qualit satisfaisante dans certaines conditions [Yeh, 2010].
Dautres stratgies danalyse consistent calculer des descripteurs sappliquant lintgralit du flux
polyphonique et font lobjet de nombreux rsultats de recherche portant notamment sur la structure temporelle
globale du morceau [Peeters, 2007], lanalyse de tempo [Peeters, 2011a], le contenu harmonique [Gomez,
2004], etc.
Cet tat de lart rsum et concentr sur des notions simples ne doit cependant pas occulter les multiples
problmatiques inhrentes lanalyse musicale en gnral. Lextraction dinformations numriques relatives aux
principales catgories de la musique occidentale (hauteurs, intensits, structures temporelles) devient
insuffisante pour lanalyse duvres rcentes fondes sur un vocabulaire tendu dautres caractristiques du
sonore (timbre, modes de jeux, chelles microtonales, sons lectroniques). Ceci est dautant plus vrai des
musiques de bruit acousmatiques dans lesquelles la rfrence instrumentale a disparu et lorganisation des
hauteurs ne joue plus un rle structurant [Schaeffer, 1966]. De plus, si lon se restreint au champ de la tradition
instrumentale occidentale, la rfrence la partition ne constitue, dans le champ de la smiologie musicale,
quun niveau neutre, consignant une prescription dinterprtation, dune tripartition qui le distingue des niveaux
relatifs sa composition posis et sa rception esthsis [Nattiez, 1975].
Ainsi, il existe de multiples points de vue et stratgies danalyse possibles dun mme contenu musical et
lapproche technique pour la ralisation doutils danalyse automatise, tant destins aux musicologues quaux
crateurs, doit tre de proposer une architecture modulaire, reposant sur un ensemble aussi exhaustif que
possible de descripteurs lmentaires caractrisant les diffrents aspects du sonore, et qui puissent tre
combins dans une perspective danalyse particulire. Cest en particulier le cas de dveloppements rcents
mens lIrcam autour du module IrcamDescriptor qui fournit lextraction dun grand nombre de descripteurs
audio [Peeters, 2004], de lapplication Audiosculpt* pour ldition des sons et de lditeur MuBu* (pour multi-
buffer ) intgr lapplication Max/MSP*.
Figure 2 : interface du logiciel Audiosculpt*, Ircam.
Audiosculpt* (voir Figure 2) comprend un diteur graphique permettant la superposition sur une mme base
temporelle de multiples analyses combin au moteur de traitement SuperVP*, fond sur le modle de vocodeur
de phase mentionn plus haut et proposant de nombreux traitements de haute qualit sur le son manipul. La
possibilit ddition de lensemble des paramtres produits rpond la ncessit dajustement manuel de
rsultats parfois incorrects de modules danalyse automatise. MuBu* (voir Figure 3) est un objet graphique
intgr lenvironnement modulaire Max*, destin la ralisation dalgorithmes de traitement des informations
musicales en temps rel [Schnell, 2009].
Figure 3 : diteur du logiciel MuBu* visualisant de multiples analyses dun son sur une mme rfrence
temporelle, Ircam.
Proposant des fonctions ddition similaires celles dAudiosculpt*, il intervient notamment dans la ralisation de
dispositifs dinteraction sonore faisant appel des contenus musicaux prenregistrs en fournissant un accs
efficace pour la synthse temps rel aux structures temporelles issues de leurs diffrentes analyses. Le
traitement modulaire des informations rsultant de lanalyse du signal sous forme symbolique ou continue est,
quant lui, possible partir denvironnements informatiques spcialiss pour laide la composition et
lanalyse musicologique, tels que le logiciel OpenMusic* de lIrcam [Agon, 1998].
APPLICATIONS ET CAS DUSAGE
Cette partie prsente des exemples reprsentatifs dapplications et cas dusage issus de travaux de recherche
rcents, mens notamment lIrcam, et illustrant diffrentes possibilits nouvelles de manipulation par le
contenu des signaux musicaux.
Navigation dans la structure temporelle des morceaux
Les recherches sur la segmentation denregistrements de musiques polyphoniques permettent une analyse et un
appariement automatiques des principales parties dun morceau (introduction, refrain, couplets, etc.)[Peeters,
2007]. Une application, reprsentant lune des fonctions du dmonstrateur MuMa* ralis par la socit Exalead-
Dassault Systmes dans le cadre du projet Quaero 3 , est la ralisation dinterfaces dcoute proposant une
navigation dans le morceau partir de la visualisation de cette structure temporelle (voir Figure 4).
Figure 4 : Extrait dinterface de lapplication MuMa*, Exalead-Dassault Systmes.
dition des sons
Plusieurs applications avances, dont Audiosculpt* et Melodyne de Celemony4 proposent des fonctions ddition
graphique aux niveaux symbolique et contrle partir de lanalyse/resynthse de fichiers sons. Linterface de
Melodyne (voir Figure 5) visualise simultanment linformation symbolique discrte (valeur de note, position
temporelle), ainsi que les variations continues damplitude et de frquence fondamentale au cours du temps, et
permet de les modifier par dition graphique et copier-coller.
Figure 5 : diteur du logiciel Melodyne, Celemony.

Les moteurs danalyse/synthse utiliss par ces applications sont galement potentiellement automatisables par
des langages de programmation pour modifier ou tendre linfini le contenu musical monophonique partir de
son analyse symbolique : mlodies, chelles de hauteurs, cration de voix supplmentaires transposes,
changement des structures rythmiques, etc.
Lintgration dans lapplication de squenceur Live 9 dAbleton 6 de rcents rsultats de recherches sur la
transcription denregistrements polyphoniques se traduit par la possibilit de production dune squence
polyphonique au format Midi partir dun son de dpart. Il sagit ici non plus de transformer celui-ci, mais de le
complter par des sons de synthse synchrones et dfinis partir des valeurs de hauteur des notes joues.
Suivi de tempo et synchronisation temporelle
Les fonctions prcdemment dcrites reposent sur une segmentation en vnements successifs. Lanalyse du
tempo associe la dtection des temps forts du morceau (dbuts de mesure) rend compte dun autre aspect
de sa temporalit lie son caractre priodique et permet de nombreuses applications consistant soit
ltendre des squences rythmiques additionnelles, soit linstar de lapplication Traktor 5 de Native
Instruments pour les DJ de pouvoir mixer de manire synchronise des morceaux diffrents, en passant
progressivement du tempo du premier celui du second.
Suivi de partition pour les uvres mixtes et laccompagnement automatique
De nombreuses uvres musicales contemporaines, dites mixtes, reposent sur la combinaison de parties
instrumentales et de sons lectroniques issus de procds de synthse ou du traitement en temps rel des sons
des instruments sur scne. Diffrentes stratgies ont t exprimentes pour synchroniser les parties
acoustiques et lectroniques, les plus anciennes consistant diffuser une bande son pour les parties
lectroniques et lui asservir linterprtation instrumentale, avec la perte dexpressivit qui en rsulte pour cette
dernire. Les travaux mens lIrcam sur le suivi de partition [Orio, 2003], et qui ont rcemment abouti au
logiciel Antescofo*[Cont, 2012], consistent linverse laisser toute libert linterprtation en synchronisant
automatiquement le dclenchement de sons lectroniques produits par lordinateur au jeu instrumental, au gr
de ses variations. Lalgorithme dispose dune reprsentation de la partition joue par linstrumentiste et analyse
son jeu en temps rel, en le comparant sa rfrence pour en infrer la position temporelle chaque instant et
dclencher les effets sonores la note prs. Les perfectionnements du logiciel comportent une analyse continue
du tempo en cours et permettent ainsi dadapter le droulement temporel des sons lectroniques celui de
linterprtation.
Une autre application de cette mme technologie, qui fait lobjet de plusieurs produits en cours dlaboration, est
laccompagnement automatique, ou music minus one , offrant la possibilit un instrumentiste soliste de
sentraner avec un accompagnement prenregistr, celui-ci sadaptant aux variations de son interprtation.
Extensions de la notion dinstrument linteraction performance/son
Lextension de la notion dinstrument de musique aux sons lectroniques peut tre conue comme la
combinaison dune fonction de captation du geste avec celle dune synthse sonore en temps rel.
Ltablissement dune correspondance ou mapping entre les signaux issus de la captation gestuelle et les
paramtres de synthse est constitutive des caractristiques de cet instrument tendu [Wanderley, 1999] et peut
prendre plusieurs formes, la plus simple tant, linstar dun jeu au clavier, le dclenchement dun son
prenregistr un instant particulier.
Des recherches actuelles sur linteraction sonore tendent gnraliser cette problmatique en explicitant et
mettant en uvre les relations entre les structures temporelles inhrentes au geste dune part, au son dautre
part [Schnell, 2011]. Ces travaux se fondent notamment sur un algorithme de suivi de geste et de formes
temporelles, analogue au suivi de partition voqu plus haut pour des signaux continus, qui reconnat un geste
effectu partir dune rfrence prcdemment apprise et fournit chaque instant sa position temporelle par
rapport la rfrence [Bevilacqua, 2010]. partir dune synchronisation prtablie entre le geste de rfrence et
un son prenregistr, il est ainsi possible de resynchroniser en temps rel ce son avec le nouveau geste. Le
systme est de plus compatible avec une notion de la performance tendue dautres paramtres que le geste,
comme les descripteurs continus du son dun instrument ou dune voix.
Ces travaux, qui sappuient notamment sur lditeur MuBu* prsent plus haut, font lobjet de nombreuses
exprimentations et applications pour la ralisation de dispositifs interactifs : musique mixte partir dinstruments
dots de capteurs, dclenchement deffets sonores au thtre par suivi de la voix des acteurs, cration de
situations dinteraction sonore partir de la manipulation dobjets de la vie courante 7 .
Synthse sonore par corpus
Issu des techniques de synthse de la parole, un nouveau mode de synthse sonore temps rel, fond sur
lutilisation de bases de donnes de descripteurs musicaux, est la synthse concatnative par corpus, moteur du
logiciel CataRT* de lIrcam [Schwarz, 2007]. Un ensemble de sons de dpart est segment automatiquement en
units de courte dure (typiquement 0,5 s), chaque unit du corpus tant analyse selon un ensemble de
descripteurs. La synthse peut alors tre contrle selon plusieurs modes. Le premier prend un son cible en
entre et, chaque instant, calcule ses descripteurs et recherche lunit du corpus la plus proche selon un
critre de similarit, dfini selon la combinaison choisie de descripteurs (similarit en hauteur, et/ou en timbre,
etc.). Il en rsulte un son issu du matriau du corpus et dont la dynamique d'volution suit celle du son cible.
Le second mode de contrle utilise linterface graphique de CataRT* (voir Figure 6), le dplacement de la souris
dans une zone bidimensionnelle dfinie par deux axes de descripteurs slectionns, produisant une synthse
sonore par concatnation des units les plus proches. Il sagit bien dune application danalyse/synthse par le
contenu, le corpus initial tant dconstruit par segmentation puis reconstruit par synthse selon la squence
cible dans lespace des descripteurs.
Figure 6 : Interface du logiciel CataRT*, Ircam.
Interaction symbolique pour limprovisation et les nouveaux instruments
Une autre application relative au traitement dans le domaine symbolique des informations musicales est
lenvironnement OMax*, conu pour linteraction performance-ordinateur dans le contexte de la musique
improvise [Assayag, 2006]. linverse de la situation de musique crite, aucune information pralable nest
disponible sur le contenu de linterprtation. Le systme effectue une analyse symbolique en temps rel du jeu
instrumental et code celui-ci selon un algorithme, dit oracle des facteurs , ddi la reprsentation de la
squence des symboles sous forme de relations multiples entre sous-squences. Cette reprsentation stoffe
au fil du jeu et peut tre utilise en lecture pour produire de nouvelles squences de notes, constituant des
variantes dans le mme style musical que la squence de rfrence. Le systme a t utilis dans de
nombreuses situations exprimentales dimprovisation.
Une autre application novatrice du systme, en cours dexprimentation dans le cadre du projet de recherche
Sample Orchestrator 2*, consiste appliquer ce modle non plus limprovisation, mais la cration de
nouveaux types dinstruments tendus reposant sur lanalyse de tout un corpus de morceaux pranalyss. Le
systme compare en temps rel le jeu de linstrumentiste aux structures du corpus pour lui adjoindre un
accompagnement dans le style des squences analyses.
PERSPECTIVES
Les exemples prsents illustrent des rsultats rcents de travaux de recherches en cours, sous la forme, pour
la plupart dentre eux, de prototypes exprimentaux dont les fonctions sont voues tre progressivement
intgres dans des applications de plus large diffusion. Le traitement par le contenu des sons musicaux nen est
qu ses prmisses et ses dveloppements laissent entrevoir la perspective dun renouvellement profond des
possibilits expressives des technologies musicales, tant auprs des crateurs et artistes professionnels que du
grand public.
Une tendance importante qui en rsulte est la gnralisation du matriau de base musical jusqu prsent
principalement fond sur des sons isols (notes, chantillons) des phrases instrumentales et morceaux
polyphoniques constitus, excuts en direct ou issus denregistrements, selon des modes dextraction, de
recombinaison et de synchronisation combinables linfini.
Dans le champ de la cration contemporaine, on pourra y voir, selon lorientation esthtique, une rintgration
radicale de la modernit dans la postmodernit ou exactement linverse.
Hugues Vinet, directeur scientifique de lIrcam
Mise en ligne : janvier 2013
________________________________
1. Voir GRM Tools 3, Ina GRM (Groupe de recherch musicales), et larticle sur le GRM dans ce mme
dossier.
2. Les rcentes amliorations de ces algorithmes font cependant intervenir une adaptation au contenu du son
trait : la transposition de la voix dun locuteur sans altration de son timbre implique lextraction pralable et la
prservation de son enveloppe spectrale, caractristique de la rponse acoustique de son conduit vocal ; la
rduction des artefacts lis au ralentissement dun son implique la dtection et un traitement diffrenci assurant
la prservation des transitoires dattaques [Roebel, 2003, 2010].
3. Voir Quaero.
4. Voir Celemony.
5. Voir Traktor.
6. Voir Ableton
7. Voir les trois sites de : Mogees / Bruno Zamborlin, Urban Musical Gameet Interlude Project / Ircam.
________________________________
GLOSSAIRE DES LOGICIELS ET PROJETS DE LIRCAM

Antescofo
Antescofo est un systme de suivi de partition modulaire et un langage de programmation synchrone pour la
composition musicale. Il effectue une reconnaissance automatique en temps rel de linterprtation position
dans la partition et tempo - permettant ainsi de synchroniser une performance instrumentale avec celle dune
partition virtuelle informatique. Antescofo runit la description des parties instrumentales et lectroniques dans la
mme partition, grce un langage synchrone conu pour la pratique de musique mixte, visant augmenter
l'expressivit de l'criture des processus temps rel, sous une forme adapte au langage musical. Aprs le
chargement de la partition, Antescofo, qui prend comme entre un flux audio polyphonique, est capable de
suivre la position et le tempo des musiciens en temps rel et de synchroniser les actions programmes pour la
partie dinformatique musicale (dclenchement et contrle de la partie lectronique).
Audiosculpt
Audiosculpt est une application pour Macintosh permettant de sculpter littralement un son de manire
visuelle. Aprs une phase danalyse, le son saffiche sous la forme dun sonagramme, et lutilisateur peut
dessiner les modifications quil veut lui appliquer. Les traitements principaux sont le filtrage, la synthse croise,
la transposition, la dilatation et compression temporelles, le dbruitage. Plusieurs types danalyses montrent le
contenu spectral dun son, et lutilisateur peut ensuite modifier celui-ci par plusieurs mthodes : dessiner des
filtres, dplacer des rgions du sonagramme en temps et frquence, ou appliquer lune des nombreuses
transformations de haute qualit.
CataRT
Reposant sur la synthse sonore concatnative par corpus, CataRT propose une exploration interactive, et en
temps rel, dune base de donnes sonore et une composition granulaire cible par des caractristiques sonores
prcises. Il permet aux compositeurs et musiciens d'atteindre de nouvelles sonorits, et aux designers sonores
de rapidement explorer un corpus sonore constitu dun grand nombre denregistrements. CataRT existe en
application standalone ou en systme modulaire dans Max*. L'interaction repose sur une interface simple
consistant en l'affichage d'une projection 2D de l'espace de descripteurs, offrant une navigation avec la souris et
dans laquelle les grains sont slectionns et jous par proximit gomtrique.
IrcamDescriptor
Ircamdescriptor est un logiciel ddi lextraction automatique dun grand nombre de descripteurs sonores et
musicaux partir de lanalyse dun fichier son. Il est disponible sous forme de bibliothque C++ pouvant tre
intgre dans un environnement logiciel, ainsi que sous la forme de lobjet ircamdescriptor~pour Max fournissant
lextraction en temps rel dune quarantaine de descripteurs partir dun signal audio (voir Max Sound Box).
Max
Max (anciennement Max/MSP) est un environnement visuel pour la programmation dapplications interactives
temps rel. Cest actuellement la rfrence mondiale pour la cration dinstallations sonores interactives. Max
est la combinaison du logiciel Max (Ircam/Cycling74) pour le contrle temps rel dapplications musicales et
multimdias interactives par Midi, de MSP, une bibliothque d'objets pour l'analyse, la synthse et le traitement
du signal audio en temps rel et de Jitter qui est un ensemble dobjets vido, matriciels et graphiques 3D. Max
est conu pour les musiciens, les designers sonores, les enseignants et les chercheurs qui souhaitent
dvelopper des programmes interactifs temps rel. Max est dvelopp et dit par la socit californienne
Cycling74 sous licence exclusive de lIrcam.
MuBu
MuBu pour multi-buffer est une collection dobjets Max* destine ldition de donnes temporelles de
toutes sortes et leur utilisation pour diffrentes applications de traitement temps rel dont la synthse sonore.
MuBu contient des pistes multiples de donnes alignes des structures de donnes complexes telles que :
- donnes audio segmentes avec descripteurs et annotation,
- donnes de mouvement de captation annotes,
- donnes audio et de signaux de captation gestuelle synchronises.
Chaque piste dun buffer MuBu peut reprsenter un flux de donnes chantillonn ou une squence
dvnements temporels tiquets, comme, par exemple, des chantillons audio, des descripteurs audio, des
donnes de mouvement de captation, des marqueurs, des segments et des vnements musicaux.
MuMa
Muma est un prototype dapplication web, dvelopp par la socit Exalead-Dassault Systmes dans le cadre
du projet Quaero, destin illustrer les nouvelles possibilits de navigation par le contenu dans des bases de
morceaux de musique enregistrs, sur la base dun ensemble de descripteurs musicaux automatiquement
extraits par analyse de signal.
OMax
OMax est un environnement pour l'improvisation avec ordinateur qui analyse, modlise et rimprovise en temps
rel le jeu d'un ou de plusieurs instrumentistes, en audio ou en Midi. OMax est bas sur une reprsentation
informatique nomme "Oracle des facteurs", un graphe qui interconnecte tous les motifs, des plus petits aux plus
grands, et fournit donc une carte de navigation dans la logique motivique apprise de l'instrumentiste, engendrant
ainsi un grand nombre de variations cohrentes stylistiquement. OMax base sa reconnaissance soit sur des
notes (suivi de hauteurs), soit sur des timbres (suivi spectral).
OpenMusic
OpenMusic est un environnement de programmation visuelle pour la cration dapplications de composition et
danalyse musicale assistes par ordinateur. OpenMusic offre lutilisateur de nombreux modules qui peuvent
tre associs des fonctions mathmatiques ou musicales, reprsentes par des icnes. Lutilisateur peut relier
ces modules entre eux et crer un programme appel patch qui va gnrer ou transformer des structures
musicales. Les patchs peuvent semboter les uns dans les autres pour constituer des programmes et crer des
structures de plus en plus labores. OpenMusic est aujourdhui utilis par un grand nombre de compositeurs et
de musicologues. Il est enseign dans les principaux centres dinformatique musicale, ainsi que dans plusieurs
universits en Europe et aux tats-Unis.
Sample Orchestrator 2
Sample Orchestrator 2 est un projet de recherche et dveloppement soutenu par lAgence nationale de la
recherche. Men par un consortium coordonn par lIrcam et associant la socit Univers sons et le
Conservatoire national de musique et de danse de Paris, il vise la ralisation dune nouvelle gnration
dapplication dchantillonneur musical tendant les possibilits actuelles de la synthse, du traitement sonore et
des instruments de musique selon trois directions de recherche parallles :
- llaboration de modles de signaux paramtriques pour la synthse dinstruments de musique ;
- llaboration de nouvelles mthodes de spatialisation hybrides combinant chantillonnage spatial haute
rsolution et modles paramtriques ;
- llaboration de nouvelles formes dinstruments fournissant un accompagnement interactif partir de
lanalyse de corpus musicaux prenregistrs.
SuperVP
SuperVP est une bibliothque de traitement de signal reposant sur un vocodeur de phase perfectionn. Elle
permet un grand nombre de transformations du signal avec une trs grande qualit sonore (tirement temporel,
transposition de la frquence fondamentale et de lenveloppe spectrale, dbruitage, remixage des composantes
sinusodales, bruites et transitoires, dilatation de lenveloppe spectrale, synthse croise gnralise, synthse
croise en mode source et filtre). Elle donne accs un vaste jeu de paramtres qui fournissent un contrle
complet, et grain fin, du rsultat dalgorithmes diffrents. En sus des algorithmes de transformation sonores, la
bibliothque comprend une collection importante dalgorithmes danalyse du signal (frquence fondamentale,
dtection des dbuts de notes, spectrogramme, spectrogramme rassign, enveloppe, spectrale). SuperVP
est disponible sous forme de bibliothque C++ pour intgration dans des environnements logiciels, ou sous
forme dobjets de traitement temps rel pour lenvironnement Max*. Cest aussi le moteur principal du logiciel
Audiosculpt*. De nombreux produits commerciaux lutilisent pour le traitement audio de haute qualit.
RFRENCES BIBLIOGRAPHIQUES
AGON (Carlos), OpenMusic : Un langage visuel pour la composition musicale assiste par ordinateur,
Thse de doctorat, Universit Pierre et Marie Curie, Paris, 1998.
ALLEN (Jont B.), RABINER (Lawrence R.),A unified approach to short-time Fourier analysis and synthesis,
in Proceedings of the IEEE, volume 65, numro 11, 1977.
ASSAYAG (Grard), BLOCH (Georges), CHEMILLIER (Marc), DUBNOV (Shlomo), OMax Brothers : a Dynamic
Topology of Agents for Improvization Learning, Workshop on Audio and Music Computing for Multimedia, ACM
Multimedia, 2006.
BEVILACQUA (Frdric), ZAMBORLIN (Bruno), SYPNIEWSKI (Anthony), SCHNELL (Norbert), GUDY

(Fabrice), RASAMIMANANA (Nicolas), Continuous realtime gesture following and recognition in Embodied
Communication and Human-Computer Interaction, Lecture Notes in Computer Science (LNCS) volume 5934,
Springer Verlag (2010).
CONT (Arshia), Synchronisme musical et musiques mixtes: Du temps crit au temps produit, in Circuit
Musiques Contemporaines, volume 22, numro 1, 2012.
GOMEZ (Emilia), Estimating the tonality of polyphonic audio files: cognitive versus machine learning modelling
strategies, in Proceedings International Conference on Music Information Retrieval, 2004.
KAPRYKOWSKY (Hagen), RODET (Xavier), Globally Optimal Short-Time Dynamic Time Warping Application to
Score to Audio Alignment, inProceedings International Conference on Audio, Signal and Speech
Processing, 2006.
MOORER (James Andy), The use of the phase vocoder in computer music applications, in Journal of the
Audio Engineering Society, volume 2610-18, numro 1/2, p. 42-45,1978.
NATTIEZ (Jean-Jacques), Fondements dune smiologie de la musique, Paris, Union gnrale dditions,
collection 10-18 , 1975.
ORIO (Nicola), LEMOUTON (Serge), SCHWARZ (Diemo), SCHNELL (Norbert), Score Following: State of the
Art and New Developments, in Proc. New Interfaces for Musical Expression, 2003.
MPEG-7, Information Technology - Multimedia Content Description Interface - Part 4: Audio, ISO/IEC JTC
1/SC 29, ISO/IEC FDIS 15938-4, 2002.
PEETERS (Geoffroy), A large set of audio features for sound description (similarity and classification) in the
Cuidado project, in Technical Report version 1.0, Paris, Ircam Centre Pompidou, 2004.
PEETERS (Geoffroy), Sequence representation of music structure using Higher-Order Similarity Matrix and
Maximum-Likelihood approach, inProceedings International Conference on Music Information Retrieval,
2007.
PEETERS (Geoffroy), PAPADOPOULOS (Hlne), Simultaneous beat and downbeat-tracking using a

probabilistic framework: theory and large-scale evaluation, in IEEE. Trans. on Audio, Speech and Language
Processing, Volume 19, numro 6, 2011 (2011a).
PEETERS (Geoffroy), GIORDANO (Bruno L.), SUSINI (Patrick), MISDARIIS (Nicolas), McAdams Stephen, The
Timbre Toolbox: Audio descriptors of musical signals, in Journal of the Acoustical Society of America,
Volume 5, numro130, 2011 (2011b).
ROEBEL (Axel), A new approach to transient processing in the phase vocoder, in Proceedings International
Conference on Digital Audio Effects (DAFx03), p. 344-349, 2003.
ROEBEL (Axel), A Shape-Invariant Phase Vocoder for Speech Transformation, in Proceedings International
Conference on Digital Audio Effects, 2010.
SCHAEFFER (Pierre), Trait des objets musicaux, Paris, Editions du Seuil, 1966.
SCHNELL (Norbert), ROEBEL (Axel), SCHWARZ (Diemo), PEETERS ( Geoffroy), BORGHESI (Riccardo),
MuBu & Friends Assembling Tools for Content Based Real-Time Interactive Audio Processing in Max/MSP, in
Proc. of the Int. Conf. on Computer Music (2009).
SCHNELL (Norbert), BEVILACQUA (Frdric), GUDY (Fabrice), RASAMIMANANA (Nicolas), Playing and
Replaying Sound, Gesture and Music Analysis and Re-Synthesis for the Interactive Control and Re-
Embodiment of Recorded Music, in Klang und Begriff, Gemessene Interpretation - Computergesttzte
Auffhrungsanalyse im Kreuzverhr der Disziplinen, Mainz, Schott Verlag, 2011.
SCHWARZ (Diemo), Corpus-based concatenative synthesis , in IEEE Signal Processing Magazine, 24, 2, p.
92-104, Special Section : Signal Processing for Sound Synthesis, 2007.
SUSINI (Patrick), LEMAITRE (Guillaume), MCADAMS (Stephen), Psychological measurement for sound
description and evaluation, in Measurements with persons, Ed. Berglund B., Rossi G.B., Townsend J.T.,
Pendrill L.R., Scientific Psychology Series, Psychology Press, Taylor and Francis, 2012.
VINCENT (Emmanuel), ONO (Nobutaka), Music Source Separation and its Application to MIR, in Proceedings
International Conference on Music Information Retrieval, (2010).
VINET (Hugues), The Representation Levels of Musical Information, inLecture Notes in Computer Science,
numro 2771, Springer Verlag, 2003.
WANDERLEY (Marcelo), DEPALLE (Philippe), Contrle gestuel de la synthse sonore, in Interfaces homme-
machine et cration musicale, Ed. Vinet H. et Delalande F., Hermes Science Publications (1999).
YEH (Chungsinh), ROEBEL (Axel), RODET (Xavier), Multiple Fundamental Frequency Estimation and
Polyphony Inference of Polyphonic Music Signals, in IEEE Transactions on Audio, Speech and Language
Processing, Volume 18, numro 6, p.1116-1126, 2010.
ENSEIGNEMENT SUPRIEUR FORMATION PROFESSIONNELLE EXPERTISE ET CONSEIL LA RECHERCHE

Prsentation Prsentation Prsentation Prsentation
Actualits Actualits L'quipe Chercheurs
Bac+2 Certifications RNCP et Ina Savoir-faire Thmes de recherche
Bac+3 Stages Pro Services Prototypes et applications
Bac+5 et plus CICP Ralisations Projets
Alternance Nos centres de formation International Thses
Etudiants internationaux Stages conventionns AFDAS Etude Mdia
Taxe d'apprentissage VAE
PUBLICATIONS RENCONTRES ENTREPRISE RESTEZ CONNECTS
Prsentation Prsentation Prsentation
Ina STAT Rendez-vous professionnels Formation sur mesure
E-dossiers de l'audiovisuel Synthses & comptes-rendus Accueillir un apprenti
Livres & revues Salons
Contact Emplois & stages Mentions lgales Infos pratiques CGU
LES SITES DE L'INSTITUT NATIONAL DE L'AUDIOVISUEL

Traitement Par Le Contenu Des Signaux Musicaux: Le Son Dans Tous Ses États - Ina

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Traitement Par Le Contenu Des Signaux Musicaux: Le Son Dans Tous Ses États - Ina

Hochgeladen von

Copyright:

Verfügbare Formate

TOUT SAVOIR SUR L'INA LES SITES DE L'INA SUIVRE L'INA SUR ENTREPRISE CONTACT FR

ENSEIGNEMENT SUPRIEUR FORMATION PROFESSIONNELLE EXPERTISE ET CONSEIL LA RECHERCHE PUBLICATIONS RENCONTRES

Traitement par le contenu des signaux musicaux

TRAITEMENT PAR LE CONTENU ET NIVEAUX DABSTRACTION DES INFORMATIONS

Figure 1 : les niveaux de reprsentation des informations musicalesIrcam.

PROBLMATIQUES, STRATGIES ET OUTILS DANALYSE

Lanalyse des signaux sonores fait intervenir les notions suivantes :

Figure 2 : interface du logiciel Audiosculpt*, Ircam.

APPLICATIONS ET CAS DUSAGE

Navigation dans la structure temporelle des morceaux

Figure 4 : Extrait dinterface de lapplication MuMa*, Exalead-Dassault Systmes.

dition des sons

Figure 5 : diteur du logiciel Melodyne, Celemony.

Suivi de tempo et synchronisation temporelle

Suivi de partition pour les uvres mixtes et laccompagnement automatique

Extensions de la notion dinstrument linteraction performance/son

Synthse sonore par corpus

Figure 6 : Interface du logiciel CataRT*, Ircam.

Interaction symbolique pour limprovisation et les nouveaux instruments

Hugues Vinet, directeur scientifique de lIrcam

Mise en ligne : janvier 2013

GLOSSAIRE DES LOGICIELS ET PROJETS DE LIRCAM

BEVILACQUA (Frdric), ZAMBORLIN (Bruno), SYPNIEWSKI (Anthony), SCHNELL (Norbert), GUDY

PEETERS (Geoffroy), PAPADOPOULOS (Hlne), Simultaneous beat and downbeat-tracking using a

ENSEIGNEMENT SUPRIEUR FORMATION PROFESSIONNELLE EXPERTISE ET CONSEIL LA RECHERCHE

Contact Emplois & stages Mentions lgales Infos pratiques CGU

LES SITES DE L'INSTITUT NATIONAL DE L'AUDIOVISUEL

Das könnte Ihnen auch gefallen