Sie sind auf Seite 1von 28

Self-Similarity-Matrix im Kontext

der computerbasierten
Klanganalyse und deren Einsatz
in der Lehre
Egor Poliakov
HMT Leipzig
Gliederung
1. SSM-Matrix: Einführung/aktueller Forschungsstand

2. "I am sitting in a room" (1970) for voice and electromagnetic tape von
Alvin Lucier: Analyseansätze - Verwendung von Spektrogramm/SSM sowie
Simulationspatches in Max

3. “dip 1.1” (2001) von William Basinski: Analyseansätze –


Spektrogramm/SSM

4. Schlusswort
1. SSM-Matrix: Einführung/aktueller
Forschungsstand
• Erscheint seit Ende der 90er als eine neue Methode zur Visualisierung
der musikalischen Zeitstruktur in Arbeiten von J. Foote and M. Cooper
• Ausgangspunkt: generelle Selbsänhlichkeit der Musik => strukturelle
Wiederholungen sind in der Regel immer in der Musik vorhanden

“Music is generally self-similar. With the possible exception of a few


avant-garde compositions, structure and repetition is a general feature
of nearly all music.”

J. Foote 1999. Visualizing music and audio using self-similarity. In: MULTIMEDIA '99 Proceedings of the
seventh ACM international conference on Multimedia (Part 1). Orlando, Florida. S. 77-80.
Grafische Repräsentation => 2D-Darstellung

J. Foote 1999
Ausgangswerte: Vergleich von 2 auf MFCC basierenden „feature
vectors“

J. Foote 1999
J. Foote 1999
• MFCC => Verwendung vorwiegend im Bereich der Spracherkennung
• kompakte Darstellung des Frequenzspektrums => wie oft ändert sich
die Information in den analysierten Bänder

Quelle: https://dsp.stackexchange.com/questions/15938/is-this-a-correct-interpretation-
of-the-dct-step-in-mfcc-calculation
Quelle: https://de.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlab
Auflösung der SSM:

“Each window is 25ms wide and are overlapped so there are 100
windows, hence feature vectors, in a second of audio.

The audio waveform is thus transformed into 13-dimensional feature
vectors (12 MFC coefficients plus energy) at a 100Hz rate.”

J. Foote 1999
Einsatzgebiete der SSM liegen hauptsächlich in MIR (Music Information
Retrieval):

• Automatisiertes Erkennen der Musik => Erzeugen der Fingerprints für


die Musikwiedererkennung (Grosche 2012)
• Automatisierte Segmentierung der Klagaufnahmen bei Streams oder
Broadcasts (Barthet 2010, Scarfe 2013)
• Automatisierte musikstrukturelle Database-Suchalgorithmen
(Martin 2009)
• Automatisierte Musiksegmentation auf Basis von neuronalen
Netzwerken (O’Brien 2016)
Einsatz in musikologischen Kontext:

• Visualisierung des tonalen Inhalts (Toivianen 2007)


• Segmentierung und tembrale/rhythmische Ähnlichkeiten in der EDM
(Rocha 2013)
• Grafische Klangrepräsentation und Bildvertonung (Thiebaut 2007)

Im Gegensatz zur spektralen Analyse keine Untersuchungen der


elektronischen/akusmatischen Musik.
Realisationsmöglichkeiten:

• Audiosculpt
• MatLAB (SM Toolbox)
• Max/MSP (realtime) mit external Libraries (FTM, Zsa.Descriptors)

=> Realisation erfordert in der Regel fortgeschrittene Kenntnisse im


Bereich der Computermusik
2. "I am sitting in a room" (1970) for voice and
electromagnetic tape von Alvin Lucier: Analyseansätze
- Verwendung von Spektrogramm/SSM sowie
Simulationspatches in Max
Alvin Lucier - I Am Sitting in a Room (1970)

• Perfomance für 1 Mikrofon, 2 Tape-Recorder, Verstärker und 1


Lautsprecher
• Anzahl der Wiederholungen sowie die Raumbeschaffenheit sind nicht
vorgeschrieben => offene Form => zahlreiche Interpretationen
• Simulationspatch in Max zur selbständigen Erforschung
Quelle: http://www.interactivearchitecture.org/the-architecture-of-the-ear-and-the-design-of-soundscapes.html
Ausgangsmaterial für die Analyse: CD-Veröffentlichung (1993)

“The recording on this CD was created on October 29th and 31st, 1980
in the living room of Lucier's house at 7 Miles Avenue, Middletown. The
material was recorded on a Nagra tape recorder with an Electro-Voice
635 dynamic microphone and played back on one channel of a Revox
A77 tape recorder, Dynaco amplifier and a KLH Model Six loudspeaker.
It consists of thirty-two repetitions of a simple paragraph of text,
spoken by Alvin Lucier. “
Analyse
• Spektrale Analyse => genaue Analyse der
Resonanzfrequenzen/Degradation des Materials möglich
• Untersuchung der Verwandlung (Degradation/Deconstruction) von
Material in der Makroform anhand von der Spektralanalyse schwierig
(visueller Vergleich zwischen den benachbarten
Strukturen/Höranalyse)
• Ab wann wird transformiertes Material als ein neues Element
wahrgenommen?
SSM
• Eine Alternative Ansicht der Verwandlungsprozesse
• Vorschlag einer Segmentation des Stückes
• Möglichkeit den Grad der Veränderungen zu beurteilen
=> starke Überlagerung der Feedbacks am Ende des Stückes (starke
Homogenität der Textur)
=> Verlust der hochfrequenten Anteile der Stimme als die
Segmentierungsgrenze (22:00)
3. “dip 1.1” (2001) von William Basinski:
Analyseansätze – Spektrogramm/SSM
William Basinski – The Disintegration Loops
(2002)
• Basiert auf mehreren in den 80er Jahren aufgenommenen
Tonbandloops, die 2001 bei dem Versuch einer Digitalisierung nicht
mehr intakt waren und anfingen, sich beim Abspielen aufzulösen
• Tonbandzerfall führte zu einer klanglichen Beeinträchtigung des
Tonmaterials
• Die Loops sind stark mit Reverb verarbeitet => keine genauen
Angaben zur Art und Weise der Degradation des Materials (klangliche
Auswirkungen des Tapezerfalls können schwer klanglich emuliert
werden)
Analyse
• Extrem kleine Loopfragmente => Veränderungen sind schwer durch
die Spektralanalyse nachvollziehbar
• SSM zeigt eine Segmentierung nach Länge der Fragmente sowie den
Reverb-Anteil
• Extrem gecuttete Samples (ab 48:00) führen zur Homogenität der
Textur
4. Schlusswort
• SSM bietet eine aufschlussreiche Alternative zur visuellen Darstellung
der Gesamtform durch die Segmentation des Materials
• Durch die Synchronisation von SSM/Spektralanalyse können vor allem
bei der Untersuchung der homogenen
Klangtexturen/Klangtransformationsprozesse relevante Bereiche
ausfindig gemacht werden
• Unterstützende Funktion bei der Höranalyse => web-basierte
Synchronisierung der grafischen Repräsentationen
Vielen Dank!

egor.poliakov@hmt-leipzig.de
Literatur
Foote, J. 1999. Visualizing music and audio using self-similarity. In: MULTIMEDIA '99 Proceedings of
the seventh ACM international conference on Multimedia (Part 1). Orlando, Florida. S. 77-80.
Grosche P., Serrà J., Müller M., Arcos J. Lluis 2012. Structure-based audio fingerprinting for music
retrieval. In: Int. Soc. for Music Information Retrieval Conf. (ISMIR). Porto, Portugal. S. 55-60.
Speech/Music Discrimination in Audio Podcast Using Structural Segmentation and Timbre
Recognition
A Long-Range Self-similarity Approach to Segmenting DJ Mixed Music Stream
Visualization of Tonal Content in the Symbolic and Audio Domains