Beruflich Dokumente
Kultur Dokumente
Publications E-dossiers de l'audiovisuel E-dossier de l'audiovisuel : le son dans tous ses tats Traitement par le contenu des signaux musicaux
Hugues Vinet est depuis 1994 directeur scientifique de l'Ircam, (Institut de recherche et coordination
Acoustique/Musique) dont il dirige le dpartement Recherche et Dveloppement. Ses domaines d'intrt portent
notamment sur le traitement du signal audionumrique, les interfaces homme-machine, lingnierie des
connaissances musicales et lpistmologie des relations entre recherche scientifique, dveloppement
technologique et cration musicale. Il assure la coordination de projets europens (Cuidado, SemanticHIFI) et
nationaux (crins, coute, Voxstruments, Sample Orchestrator 1&2). De formation scientifique et musicale, il a
prcdemment travaill au Groupe de recherches musicales de l'Institut national de l'audiovisuel o il a anim de
1987 1994 les activits de recherche et dveloppement, ayant notamment abouti la ralisation des premires
versions des logiciels GRM Tools, Acousmographe et Midi Formers. Il est membre de diverses instances
scientifiques et depuis 2006, Vice-Prsident Europe de lInternational Computer Music Association.
________________________________
Les technologies musicales font largement appel des fonctions de traitement sonore, quil sagisse
dinstruments lectroniques ou logiciels, doutils de cration et de production ou dinterfaces de
navigation et de lecture. Longtemps limites des algorithmes oprant de manire globale et
indiffrencie sur tous types de sons, les recherches rcentes dans ce domaine tendent sorienter vers
des traitements par le contenu, reposant sur une analyse de leurs caractristiques et structures internes.
Ces avances ouvrent de nombreuses perspectives nouvelles, tant en matire de manipulation intuitive
et de possibilits cratives que damlioration qualitative de traitements existants ou dautomatisation
doprations fastidieuses. Hugues Vinet, directeur scientifique de lIrcam (Institut de recherche et
coordination Acoustique/Musique), propose ici une vue densemble de ltat de lart du domaine, en en
prcisant les approches et problmatiques et en les illustrant par des exemples rcents dapplications,
notamment issus des recherches de lIrcam.
___
_____________________________
Le signal musical, capt par un microphone ou issu dun enregistrement, est le support dun contenu sonore
fortement structur, qui rsulte dune squence doprations techniques complexes combinant lutherie,
composition, interprtation, prise de son, postproduction, mixage et mastering . Si lessentiel de cette
organisation sonore est perceptible lcoute, sa modification lest plus difficilement, les diffrentes
reprsentations intermdiaires des contenus musicaux partitions, donnes dinterprtation et enregistrements
dinstruments et composantes sonores isols ntant pas codes ni disponibles sparment dans le signal
rsultant. Ainsi, les possibilits de manipulation de tels contenus enregistrs se sont longtemps limites des
traitements lmentaires volume, quilibre spectral, balance, effets, rverbration artificielle ou des
algorithmes de traitement plus labors destins la cration, tels que ceux des modules GRM Tools1,
imprimant leur transformation lintgralit du contenu du signal. De plus, laccs aux structures temporelles de
sons enregistrs se rduit gnralement la position dun index de lecture sur un segment et, au mieux, dans
les logiciels ddition, une reprsentation des amplitudes du signal au cours du temps.
Dans ltat de lart actuel de la recherche, les traitements parmi les plus complexes applicables tous types de
sons, et effectuant la modification de paramtres musicaux avec une qualit satisfaisante pour des applications
professionnelles, sont raliss par une modlisation des signaux reposant sur le vocodeur de phase, ou
transforme de Fourier court terme [Allen and Rabiner, 1977 ; Moorer, 1978] et permettent des transformations
telles que la transposition (modification de la hauteur sans changement de la dure) ou la compression-
expansion temporelle ou time stretching (traitement symtrique li un changement de la vitesse de lecture
sans altration du contenu frquentiel). Ces traitements sappliquent globalement lensemble des lments
sonores constitutifs du signal et offrent un niveau de contrle adapt lutilisateur musicien, en lien direct avec
les paramtres de lcriture (hauteurs, tempo) 2 .
Lanalyse de cette problmatique peut sappuyer sur une typologie que nous avons propose des
reprsentations numriques des informations musicales, organisant celles-ci en niveaux dabstraction croissants,
les niveaux physique , signal , contrle , symbolique et smantique (voir Figure 1) [Vinet, 2003].
Le niveau symbolique, entendu au sens informatique, comprend les structures relatives des chelles de
valeurs discrtes des paramtres du sonore (hauteurs, intensits, dures et occurrences temporelles) et le
niveau smantique sattache toute description textuelle du contenu musical, leur combinaison constituant
lensemble des informations contenues dans la partition. Quant au niveau contrle, il rend compte de laction
corporelle de linterprte, instanciant les paramtres musicaux sous forme continue, tant dans leur temporalit
que dans leurs valeurs. Lordre croissant dabstraction de ces niveaux est en rapport direct avec la dcroissance
de la quantit dinformation par unit de temps et de la bande passante ncessaire au codage des
reprsentations correspondantes. Les niveaux dabstraction levs font rfrence des connaissances
implicites, relevant de thories musicales ou de conventions culturelles, alors que les reprsentations de plus
bas niveau, plus volumineuses, vhiculent en elles-mmes lintgralit des informations ncessaires. La
conversion entre niveaux diffrents est ainsi assimilable, dans le sens croissant dabstraction, un processus
danalyse ou extraction dinformation et dans le sens dcroissant, un processus de synthse ou gnration
dinformation, la descente du contrle au signal correspondant notamment une notion largie dinstrument,
comme nous le verrons dans la suite.
Sous lclairage de ce modle, notre problmatique se traduit le plus souvent par la ncessit daccs des
paramtres de transformation de signaux sonores au niveau symbolique, impliquant dabord une phase
danalyse (signal/symbolique), un traitement dans le domaine symbolique puis une rgnration du signal par
synthse (symbolique/signal). Si la transformation concerne les paramtres continus de linterprtation (vibrato
et trmolo, variation de tempo, crescendo/decrescendo), la mme structure danalyse/synthse sapplique entre
les niveaux signal et contrle. Il est noter que la phase danalyse tend reconstituer les reprsentations
intermdiaires issues des tapes de production technique mentionnes plus haut.
Les verrous scientifiques et technologiques actuels en traitement de signal audio lis la ralisation des
traitements par le contenu concernent en premier lieu les problmatiques danalyse, dont la section suivante
propose une synthse sous forme dtat de lart rsum.
- La segmentation dun flux sonore consiste le dcouper en segments temporels dont les bornes sont
dtermines par des vnements particuliers tels que dbut et fin de note - ou dfinissent un intervalle
temporel de stabilit dun ou plusieurs paramtres sonores (hauteur, intensit, instrumentation, etc.) ; un cas
particulier concerne les segmentations rgulires relatives aux musiques pulses. La segmentation peut tre
simple ou se dcomposer de manire hirarchique pour reflter les structures temporelles imbriques inhrentes
la musique (parties et mouvements, mesures, rythmes).
- Les descripteurs, notion introduite dans la norme MPEG7 [MPEG7 2002], rendent compte des diffrentes
caractristiques du son : hauteur, intensit, contenu spectral, tempo, instrumentation, etc. Leur contenu peut,
selon les cas, prendre plusieurs formes, numrique, textuelle nom dinstrument par exemple - voire celles de
structures plus complexes. Il peut tre dfini comme une fonction du temps ou comme une constante sur un
segment donn. En lien avec la section prcdente, on distingue les descripteurs de bas niveau, sous forme
numrique et facilement extractibles automatiquement par analyse de signal [Peeters, 2004, 2011b] des
descripteurs de haut niveau, en lien avec des grandeurs et catgories pertinentes du point de vue de la cognition
humaine, mais dont lextraction automatise partir du signal peut prsenter une difficult variable, selon
notamment la nature et le caractre plus ou moins explicite de la relation psychophysique existant entre
grandeur mesure et percept [Susini, 2012].
- Les possibilits danalyse de flux sonores en temps rel, notamment issus de signaux produits en direct,
sont beaucoup plus contraintes, en termes de latence admissible, de puissance de calcul et de ncessit de
prise en compte des informations de manire causale, cest--dire au fur et mesure quelles arrivent, que celles
danalyses en temps diffr de sons prenregistrs.
Deux cas principaux peuvent tre distingus selon quils concernent lanalyse :
- de sons monophoniques, cest--dire issus dune seule source acoustique ou lectronique. Lorsquen
particulier, celle-ci est un instrument de musique, lextraction de ses principaux descripteurs musicaux
hauteur, intensit, attributs du timbre comme fonctions continues du temps, de mme que sa segmentation en
notes sont ralisables avec de bonnes performances en termes de cot de calcul et de taux derreur, dans
certaines conditions de prise de son ;
- de sons polyphoniques, cest--dire comportant une superposition de sons diffrents. Il serait idalement
souhaitable de dcomposer la scne sonore en autant de flux monophoniques pour les traiter indpendamment
et leur appliquer les analyses correspondantes, mais ltat de lart de la recherche en sparation de sources ne
le permet pas dans le cas gnral. Les performances danalyse samliorent en fonction des informations
connues a priori, telles que le nombre et la nature des sources en prsence [Vincent, 2010]. Lorsquune
reprsentation de la partition est connue, des techniques dalignement automatique identifient avec une bonne
prcision le positionnement temporel de chaque note joue dans le signal audio [Kaprykowsky, 2006].
Laboutissement rcent de travaux de recherche sur lanalyse de frquences fondamentales multiples permet
depuis peu une transcription polyphonique de qualit satisfaisante dans certaines conditions [Yeh, 2010].
Dautres stratgies danalyse consistent calculer des descripteurs sappliquant lintgralit du flux
polyphonique et font lobjet de nombreux rsultats de recherche portant notamment sur la structure temporelle
globale du morceau [Peeters, 2007], lanalyse de tempo [Peeters, 2011a], le contenu harmonique [Gomez,
2004], etc.
Cet tat de lart rsum et concentr sur des notions simples ne doit cependant pas occulter les multiples
problmatiques inhrentes lanalyse musicale en gnral. Lextraction dinformations numriques relatives aux
principales catgories de la musique occidentale (hauteurs, intensits, structures temporelles) devient
insuffisante pour lanalyse duvres rcentes fondes sur un vocabulaire tendu dautres caractristiques du
sonore (timbre, modes de jeux, chelles microtonales, sons lectroniques). Ceci est dautant plus vrai des
musiques de bruit acousmatiques dans lesquelles la rfrence instrumentale a disparu et lorganisation des
hauteurs ne joue plus un rle structurant [Schaeffer, 1966]. De plus, si lon se restreint au champ de la tradition
instrumentale occidentale, la rfrence la partition ne constitue, dans le champ de la smiologie musicale,
quun niveau neutre, consignant une prescription dinterprtation, dune tripartition qui le distingue des niveaux
relatifs sa composition posis et sa rception esthsis [Nattiez, 1975].
Ainsi, il existe de multiples points de vue et stratgies danalyse possibles dun mme contenu musical et
lapproche technique pour la ralisation doutils danalyse automatise, tant destins aux musicologues quaux
crateurs, doit tre de proposer une architecture modulaire, reposant sur un ensemble aussi exhaustif que
possible de descripteurs lmentaires caractrisant les diffrents aspects du sonore, et qui puissent tre
combins dans une perspective danalyse particulire. Cest en particulier le cas de dveloppements rcents
mens lIrcam autour du module IrcamDescriptor qui fournit lextraction dun grand nombre de descripteurs
audio [Peeters, 2004], de lapplication Audiosculpt* pour ldition des sons et de lditeur MuBu* (pour multi-
buffer ) intgr lapplication Max/MSP*.
Audiosculpt* (voir Figure 2) comprend un diteur graphique permettant la superposition sur une mme base
temporelle de multiples analyses combin au moteur de traitement SuperVP*, fond sur le modle de vocodeur
de phase mentionn plus haut et proposant de nombreux traitements de haute qualit sur le son manipul. La
possibilit ddition de lensemble des paramtres produits rpond la ncessit dajustement manuel de
rsultats parfois incorrects de modules danalyse automatise. MuBu* (voir Figure 3) est un objet graphique
intgr lenvironnement modulaire Max*, destin la ralisation dalgorithmes de traitement des informations
musicales en temps rel [Schnell, 2009].
Figure 3 : diteur du logiciel MuBu* visualisant de multiples analyses dun son sur une mme rfrence
temporelle, Ircam.
Proposant des fonctions ddition similaires celles dAudiosculpt*, il intervient notamment dans la ralisation de
dispositifs dinteraction sonore faisant appel des contenus musicaux prenregistrs en fournissant un accs
efficace pour la synthse temps rel aux structures temporelles issues de leurs diffrentes analyses. Le
traitement modulaire des informations rsultant de lanalyse du signal sous forme symbolique ou continue est,
quant lui, possible partir denvironnements informatiques spcialiss pour laide la composition et
lanalyse musicologique, tels que le logiciel OpenMusic* de lIrcam [Agon, 1998].
Cette partie prsente des exemples reprsentatifs dapplications et cas dusage issus de travaux de recherche
rcents, mens notamment lIrcam, et illustrant diffrentes possibilits nouvelles de manipulation par le
contenu des signaux musicaux.
Les recherches sur la segmentation denregistrements de musiques polyphoniques permettent une analyse et un
appariement automatiques des principales parties dun morceau (introduction, refrain, couplets, etc.)[Peeters,
2007]. Une application, reprsentant lune des fonctions du dmonstrateur MuMa* ralis par la socit Exalead-
Dassault Systmes dans le cadre du projet Quaero 3 , est la ralisation dinterfaces dcoute proposant une
navigation dans le morceau partir de la visualisation de cette structure temporelle (voir Figure 4).
Plusieurs applications avances, dont Audiosculpt* et Melodyne de Celemony4 proposent des fonctions ddition
graphique aux niveaux symbolique et contrle partir de lanalyse/resynthse de fichiers sons. Linterface de
Melodyne (voir Figure 5) visualise simultanment linformation symbolique discrte (valeur de note, position
temporelle), ainsi que les variations continues damplitude et de frquence fondamentale au cours du temps, et
permet de les modifier par dition graphique et copier-coller.
Lintgration dans lapplication de squenceur Live 9 dAbleton 6 de rcents rsultats de recherches sur la
transcription denregistrements polyphoniques se traduit par la possibilit de production dune squence
polyphonique au format Midi partir dun son de dpart. Il sagit ici non plus de transformer celui-ci, mais de le
complter par des sons de synthse synchrones et dfinis partir des valeurs de hauteur des notes joues.
Les fonctions prcdemment dcrites reposent sur une segmentation en vnements successifs. Lanalyse du
tempo associe la dtection des temps forts du morceau (dbuts de mesure) rend compte dun autre aspect
de sa temporalit lie son caractre priodique et permet de nombreuses applications consistant soit
ltendre des squences rythmiques additionnelles, soit linstar de lapplication Traktor 5 de Native
Instruments pour les DJ de pouvoir mixer de manire synchronise des morceaux diffrents, en passant
progressivement du tempo du premier celui du second.
De nombreuses uvres musicales contemporaines, dites mixtes, reposent sur la combinaison de parties
instrumentales et de sons lectroniques issus de procds de synthse ou du traitement en temps rel des sons
des instruments sur scne. Diffrentes stratgies ont t exprimentes pour synchroniser les parties
acoustiques et lectroniques, les plus anciennes consistant diffuser une bande son pour les parties
lectroniques et lui asservir linterprtation instrumentale, avec la perte dexpressivit qui en rsulte pour cette
dernire. Les travaux mens lIrcam sur le suivi de partition [Orio, 2003], et qui ont rcemment abouti au
logiciel Antescofo*[Cont, 2012], consistent linverse laisser toute libert linterprtation en synchronisant
automatiquement le dclenchement de sons lectroniques produits par lordinateur au jeu instrumental, au gr
de ses variations. Lalgorithme dispose dune reprsentation de la partition joue par linstrumentiste et analyse
son jeu en temps rel, en le comparant sa rfrence pour en infrer la position temporelle chaque instant et
dclencher les effets sonores la note prs. Les perfectionnements du logiciel comportent une analyse continue
du tempo en cours et permettent ainsi dadapter le droulement temporel des sons lectroniques celui de
linterprtation.
Une autre application de cette mme technologie, qui fait lobjet de plusieurs produits en cours dlaboration, est
laccompagnement automatique, ou music minus one , offrant la possibilit un instrumentiste soliste de
sentraner avec un accompagnement prenregistr, celui-ci sadaptant aux variations de son interprtation.
Lextension de la notion dinstrument de musique aux sons lectroniques peut tre conue comme la
combinaison dune fonction de captation du geste avec celle dune synthse sonore en temps rel.
Ltablissement dune correspondance ou mapping entre les signaux issus de la captation gestuelle et les
paramtres de synthse est constitutive des caractristiques de cet instrument tendu [Wanderley, 1999] et peut
prendre plusieurs formes, la plus simple tant, linstar dun jeu au clavier, le dclenchement dun son
prenregistr un instant particulier.
Des recherches actuelles sur linteraction sonore tendent gnraliser cette problmatique en explicitant et
mettant en uvre les relations entre les structures temporelles inhrentes au geste dune part, au son dautre
part [Schnell, 2011]. Ces travaux se fondent notamment sur un algorithme de suivi de geste et de formes
temporelles, analogue au suivi de partition voqu plus haut pour des signaux continus, qui reconnat un geste
effectu partir dune rfrence prcdemment apprise et fournit chaque instant sa position temporelle par
rapport la rfrence [Bevilacqua, 2010]. partir dune synchronisation prtablie entre le geste de rfrence et
un son prenregistr, il est ainsi possible de resynchroniser en temps rel ce son avec le nouveau geste. Le
systme est de plus compatible avec une notion de la performance tendue dautres paramtres que le geste,
comme les descripteurs continus du son dun instrument ou dune voix.
Ces travaux, qui sappuient notamment sur lditeur MuBu* prsent plus haut, font lobjet de nombreuses
exprimentations et applications pour la ralisation de dispositifs interactifs : musique mixte partir dinstruments
dots de capteurs, dclenchement deffets sonores au thtre par suivi de la voix des acteurs, cration de
situations dinteraction sonore partir de la manipulation dobjets de la vie courante 7 .
Issu des techniques de synthse de la parole, un nouveau mode de synthse sonore temps rel, fond sur
lutilisation de bases de donnes de descripteurs musicaux, est la synthse concatnative par corpus, moteur du
logiciel CataRT* de lIrcam [Schwarz, 2007]. Un ensemble de sons de dpart est segment automatiquement en
units de courte dure (typiquement 0,5 s), chaque unit du corpus tant analyse selon un ensemble de
descripteurs. La synthse peut alors tre contrle selon plusieurs modes. Le premier prend un son cible en
entre et, chaque instant, calcule ses descripteurs et recherche lunit du corpus la plus proche selon un
critre de similarit, dfini selon la combinaison choisie de descripteurs (similarit en hauteur, et/ou en timbre,
etc.). Il en rsulte un son issu du matriau du corpus et dont la dynamique d'volution suit celle du son cible.
Le second mode de contrle utilise linterface graphique de CataRT* (voir Figure 6), le dplacement de la souris
dans une zone bidimensionnelle dfinie par deux axes de descripteurs slectionns, produisant une synthse
sonore par concatnation des units les plus proches. Il sagit bien dune application danalyse/synthse par le
contenu, le corpus initial tant dconstruit par segmentation puis reconstruit par synthse selon la squence
cible dans lespace des descripteurs.
Une autre application relative au traitement dans le domaine symbolique des informations musicales est
lenvironnement OMax*, conu pour linteraction performance-ordinateur dans le contexte de la musique
improvise [Assayag, 2006]. linverse de la situation de musique crite, aucune information pralable nest
disponible sur le contenu de linterprtation. Le systme effectue une analyse symbolique en temps rel du jeu
instrumental et code celui-ci selon un algorithme, dit oracle des facteurs , ddi la reprsentation de la
squence des symboles sous forme de relations multiples entre sous-squences. Cette reprsentation stoffe
au fil du jeu et peut tre utilise en lecture pour produire de nouvelles squences de notes, constituant des
variantes dans le mme style musical que la squence de rfrence. Le systme a t utilis dans de
nombreuses situations exprimentales dimprovisation.
Une autre application novatrice du systme, en cours dexprimentation dans le cadre du projet de recherche
Sample Orchestrator 2*, consiste appliquer ce modle non plus limprovisation, mais la cration de
nouveaux types dinstruments tendus reposant sur lanalyse de tout un corpus de morceaux pranalyss. Le
systme compare en temps rel le jeu de linstrumentiste aux structures du corpus pour lui adjoindre un
accompagnement dans le style des squences analyses.
PERSPECTIVES
Les exemples prsents illustrent des rsultats rcents de travaux de recherches en cours, sous la forme, pour
la plupart dentre eux, de prototypes exprimentaux dont les fonctions sont voues tre progressivement
intgres dans des applications de plus large diffusion. Le traitement par le contenu des sons musicaux nen est
qu ses prmisses et ses dveloppements laissent entrevoir la perspective dun renouvellement profond des
possibilits expressives des technologies musicales, tant auprs des crateurs et artistes professionnels que du
grand public.
Une tendance importante qui en rsulte est la gnralisation du matriau de base musical jusqu prsent
principalement fond sur des sons isols (notes, chantillons) des phrases instrumentales et morceaux
polyphoniques constitus, excuts en direct ou issus denregistrements, selon des modes dextraction, de
recombinaison et de synchronisation combinables linfini.
Dans le champ de la cration contemporaine, on pourra y voir, selon lorientation esthtique, une rintgration
radicale de la modernit dans la postmodernit ou exactement linverse.
________________________________
1. Voir GRM Tools 3, Ina GRM (Groupe de recherch musicales), et larticle sur le GRM dans ce mme
dossier.
2. Les rcentes amliorations de ces algorithmes font cependant intervenir une adaptation au contenu du son
trait : la transposition de la voix dun locuteur sans altration de son timbre implique lextraction pralable et la
prservation de son enveloppe spectrale, caractristique de la rponse acoustique de son conduit vocal ; la
rduction des artefacts lis au ralentissement dun son implique la dtection et un traitement diffrenci assurant
la prservation des transitoires dattaques [Roebel, 2003, 2010].
3. Voir Quaero.
4. Voir Celemony.
5. Voir Traktor.
6. Voir Ableton
7. Voir les trois sites de : Mogees / Bruno Zamborlin, Urban Musical Gameet Interlude Project / Ircam.
________________________________
RFRENCES BIBLIOGRAPHIQUES
AGON (Carlos), OpenMusic : Un langage visuel pour la composition musicale assiste par ordinateur,
Thse de doctorat, Universit Pierre et Marie Curie, Paris, 1998.
ALLEN (Jont B.), RABINER (Lawrence R.),A unified approach to short-time Fourier analysis and synthesis,
in Proceedings of the IEEE, volume 65, numro 11, 1977.
ASSAYAG (Grard), BLOCH (Georges), CHEMILLIER (Marc), DUBNOV (Shlomo), OMax Brothers : a Dynamic
Topology of Agents for Improvization Learning, Workshop on Audio and Music Computing for Multimedia, ACM
Multimedia, 2006.
CONT (Arshia), Synchronisme musical et musiques mixtes: Du temps crit au temps produit, in Circuit
Musiques Contemporaines, volume 22, numro 1, 2012.
GOMEZ (Emilia), Estimating the tonality of polyphonic audio files: cognitive versus machine learning modelling
strategies, in Proceedings International Conference on Music Information Retrieval, 2004.
KAPRYKOWSKY (Hagen), RODET (Xavier), Globally Optimal Short-Time Dynamic Time Warping Application to
Score to Audio Alignment, inProceedings International Conference on Audio, Signal and Speech
Processing, 2006.
MOORER (James Andy), The use of the phase vocoder in computer music applications, in Journal of the
Audio Engineering Society, volume 2610-18, numro 1/2, p. 42-45,1978.
NATTIEZ (Jean-Jacques), Fondements dune smiologie de la musique, Paris, Union gnrale dditions,
collection 10-18 , 1975.
ORIO (Nicola), LEMOUTON (Serge), SCHWARZ (Diemo), SCHNELL (Norbert), Score Following: State of the
Art and New Developments, in Proc. New Interfaces for Musical Expression, 2003.
MPEG-7, Information Technology - Multimedia Content Description Interface - Part 4: Audio, ISO/IEC JTC
1/SC 29, ISO/IEC FDIS 15938-4, 2002.
PEETERS (Geoffroy), A large set of audio features for sound description (similarity and classification) in the
Cuidado project, in Technical Report version 1.0, Paris, Ircam Centre Pompidou, 2004.
PEETERS (Geoffroy), Sequence representation of music structure using Higher-Order Similarity Matrix and
Maximum-Likelihood approach, inProceedings International Conference on Music Information Retrieval,
2007.
PEETERS (Geoffroy), GIORDANO (Bruno L.), SUSINI (Patrick), MISDARIIS (Nicolas), McAdams Stephen, The
Timbre Toolbox: Audio descriptors of musical signals, in Journal of the Acoustical Society of America,
Volume 5, numro130, 2011 (2011b).
ROEBEL (Axel), A new approach to transient processing in the phase vocoder, in Proceedings International
Conference on Digital Audio Effects (DAFx03), p. 344-349, 2003.
ROEBEL (Axel), A Shape-Invariant Phase Vocoder for Speech Transformation, in Proceedings International
Conference on Digital Audio Effects, 2010.
SCHAEFFER (Pierre), Trait des objets musicaux, Paris, Editions du Seuil, 1966.
SCHNELL (Norbert), ROEBEL (Axel), SCHWARZ (Diemo), PEETERS ( Geoffroy), BORGHESI (Riccardo),
MuBu & Friends Assembling Tools for Content Based Real-Time Interactive Audio Processing in Max/MSP, in
Proc. of the Int. Conf. on Computer Music (2009).
SCHNELL (Norbert), BEVILACQUA (Frdric), GUDY (Fabrice), RASAMIMANANA (Nicolas), Playing and
Replaying Sound, Gesture and Music Analysis and Re-Synthesis for the Interactive Control and Re-
Embodiment of Recorded Music, in Klang und Begriff, Gemessene Interpretation - Computergesttzte
Auffhrungsanalyse im Kreuzverhr der Disziplinen, Mainz, Schott Verlag, 2011.
SCHWARZ (Diemo), Corpus-based concatenative synthesis , in IEEE Signal Processing Magazine, 24, 2, p.
92-104, Special Section : Signal Processing for Sound Synthesis, 2007.
SUSINI (Patrick), LEMAITRE (Guillaume), MCADAMS (Stephen), Psychological measurement for sound
description and evaluation, in Measurements with persons, Ed. Berglund B., Rossi G.B., Townsend J.T.,
Pendrill L.R., Scientific Psychology Series, Psychology Press, Taylor and Francis, 2012.
VINCENT (Emmanuel), ONO (Nobutaka), Music Source Separation and its Application to MIR, in Proceedings
International Conference on Music Information Retrieval, (2010).
VINET (Hugues), The Representation Levels of Musical Information, inLecture Notes in Computer Science,
numro 2771, Springer Verlag, 2003.
WANDERLEY (Marcelo), DEPALLE (Philippe), Contrle gestuel de la synthse sonore, in Interfaces homme-
machine et cration musicale, Ed. Vinet H. et Delalande F., Hermes Science Publications (1999).
YEH (Chungsinh), ROEBEL (Axel), RODET (Xavier), Multiple Fundamental Frequency Estimation and
Polyphony Inference of Polyphonic Music Signals, in IEEE Transactions on Audio, Speech and Language
Processing, Volume 18, numro 6, p.1116-1126, 2010.