Sie sind auf Seite 1von 7

Componentes Mel Cepstrais

Adelino Pinheiro Silva


2015, v-0.0

Resumo
O Cepstrum de um sinal foi uma das primeiras ferramentas para a realizao da desconvoluo de dois ou
mais sinais que envolve tambm a predio linar, filtragem inversa. As variaes bsicas so o cepstrum
de potncia, o cepstrum complexo e o cepstrum real (CHILDERS; SKINNER; KEMERAIT, 1977).
Os Componentes Mel Cepstrais (Mel Frequency Component Cepstrum - MFCC) o clculo cepstral em
intervalos do espectro separados por uma escala logaritma meldica, denominada escala Mel. Este texto
busca resumir (se possvel) as bases para o clculo dos Componentes Mel Cepstrais, e suas variaes,
aplicadas a sinais de tempo discretos.
Palavras-chaves: Componentes Mel Cepstrais, Cepstrum, MFCC.

Cepstrum de um sinal
O Cepstrum de um sinal definido basicamente como uma transformao sobre o espectro do sinal, o que
leva a duas operaes em cadeia (CHILDERS; SKINNER; KEMERAIT, 1977). Devido a esta segunda transformao, os parmetros obtidos tambm foram sugeridos por Bogert, Healy e Tukey (1963), introduzindo aos
parmetros anlogos de acordo com o intercmbio das slabas, como mostra tabela 1 abaixo:
Tabela 1 Tabela de nomenclatura dos parmetros cepstrais.
Parmetro Espectral
Portugus
Ingls

Parmetros Cepstrais

espectro
frequncia
fase
amplitude
filtragem
harmnico
perodo

cepstrum
quefrency
saphe
gamnitude
liftering
rahmonic
repiod

spectrum
frequency
phase
amplitude
filtering
harmonic
period

Dadas estas definies vamos as definies de cepstrum de potncia, cepstrum de fase e cepstrum complexo.
adelinocpp@gmail.com

Cepstrum de Potncia
O cepstrum de potncia foi introduzido como uma tcnica de obter o tempo de eco em um sinal composto
(CHILDERS; SKINNER; KEMERAIT, 1977). Sendo assim, dado um sinal discreto no temo y[n] podemos
definir seu cepstrum de potncia em funo da quefrency q da forma:

2
Y [q] = C {y[n]} = F 1 log10 | F {y[n]} | 2

Tem-se a transformada de Fourier inversa do logaritmo do mdulo quadrtico da transformada de Fourier 1


do sinal y[n]. No caso particular de dois sinais x 1 [n] e x 2 [n] ocuparem extenses de quefrency diferentes e
y[n] = x 1 [n] + x 2 [n], temos o cepstrum de potncia de y[n] como:
C {y[n]} = C {x 1 [n]} + C {x 2 [n]}

Cepstrum Complexo
O cepstrum complexo definido como a transformada inversa de Fourier do logaritmo da transformada de
Fourier de um sinal, da forma:
Y [q] = C {y[n]} = F 1 {log10 (F {y[n]})}
O cepstrum complexo uma ferramenta que permite o desacoplamento de modelos fonte-filtro, pois, dado
que y[n] a correlao de um sinal x[n] com um filtro h[n], tem-se a seguinte relao cepstral:
y[n] = x[n] h[n]
Y [k] = X [k] H [k]
Onde Y [k] = F {y[n]}, em seguida, tomando o logaritmo tem-se:
log10 (Y [k]) = log10 (X [k]) + log10 (H [k])
Por fim, tomando a transformada inversa de Fourier:
C {y[n]} = F 1 {log10 (X [k])} + F 1 {log10 (H [k])}
Y [q] = X [q] + H [q]

Cepstrum Real
O cepstrum real, definido por Oppenheim e Schafer (2010), uma adaptao do cepstrum complexo definido
como a transformada inversa de Fourier do logaritmo do mdulo da transformada de Fourier de um sinal,
da forma:
Y [q] = C {y[n]} = F 1 {log10 ( | F {y[n]} | )}
Assim como o cepstrum complexo, o cepstrum real permite o desacoplamento das amplitudes dos modelos
fonte-filtro, da mesma forma com y[n] como a correlao do sinal x[n] com o filtro h[n], tem-se a seguinte
relao cepstral:
y[n] = x[n] h[n]
Y [k] = X [k] H [k]
1

Naturalmante trata-se da transformada discreta de Fourier definida da forma X [k] =


discreta.

NP
1
n=0

x[n]e j

2kn
N

, onde k a frequncia

Em seguida, tomando o mdulo e o logaritmo tem-se:


|Y [k]| = |X [k]| |H [k]|
log10 ( | Y [k] | ) = log10 ( | X [k] | ) + log10 ( | H [k] | )
Por fim, tomando a transformada inversa de Fourier:
C {y[n]} = F 1 {log10 ( | X [k] | )} + F 1 {log10 ( | H [k] | )}
Y [q] = X [q] + H [q]
importante salientar que o cepstrum real no permite a recosntruo do sinal pois a tomada do mdulo da
transformada de Fourier provoca a perda da informao de fase.

Outros Clculos Cepstrais


Outros autores propuseram o calculo cepstral de forma diferente, por exemplo Brigham (1988) define a
transformada cepstral como a transformada de Fourier do logaritmo natural da transformada de Fourier de
um sinal, da forma:
Y [q] = C {y[n]} = F {ln(F {y[n]})}
Nesta definio tem-se uma variao da varivel independente q denominada por quefrequency.
Outra definio, o kepstrum, oriundo da Srie de Potncias da Equao de Kolmogorov (Kolmogorov
equation power series - KEPS, ou kepstrum) e foi proposta por Silvia e Robinson (1978), em sua prpria
notao, da seguinte forma:
1
k =
2

log( | B () | )e j k d

k = 0, 1, 2, 3, . . .

Onde a srie kepstral composta pela srie k que correspondente ao cepstrum real.

A escala Mel
A escala mel, com nome derivado da palavra melodia (melody), uma escala logartmica perceptual definida
por (STEVENS; VOLKMANN; NEWMAN, 1937) que tem por objetivo manter os tons de frequncia equidistantes tomando como referncia 40 dB acima do limite de percepo humana em 1000 Hz. Se observarmos a
anatomia da cclea humana possvel constatar que a sensibilidade da membrana basilar s frequncias
segue uma escala logartmica (vide figura 1).
Entretanto a transformao da escala linear de frequncia para a escala mel no nica, sendo a formula
mais popular definida por OShaughnessy (1987) pela equao a seguir e possui uma curva de relao de
frequncia linear e componente mel conforme a figura 2.

f
m( f ) = 1127 ln 1 +
700
Em consequncia tem-se a equao para o calculo em hertz da escala mel.
m

f (m) = 700 e 1127 1


Desta forma os componentes mel cepstrais de um sinal so definidos a partir da soma da potncia cepstral
de uma faixa espectral dentro da escala mel. Em termos prticos para obter-se um componente mel-cepstral
de um sinal realizado o somatrio da potncia cepstral, no domnio da quefrncia, de um sinal filtrado em
uma determinada faixa de acordo com a escala mel.

Figura 1 Diagrama apresentando a sensibildiade de frequncia da cclea humana.

Figura 2 Grfico de relao entre frequncia linear e componente mel

Calculo das componentes Mel-Cepstrais


A componente mel cepstral pode ser definida como a potencia cepstral de uma faixa de frequncia na
escala mel. Uma das abordagens mais difundidas descrita por Togneri e Pullella (2011). Cada uma das
C componentes mel cepstrais ser calculada, em cada frame de N pontos, a partir de uma faixa espectral
obtida pela aplicao de um filtro centralizado em uma frequencia na escala mel (geralmente triangular)
sobre o mdulo da transformada de Fourier. Em seguida calculado o logaritmo do espectro filtrado e a
transformada discreta cosseno do tipo 2 (DCT-II - Discrete Cosine Transform - type II) (RAO; YIP; RAO, 1990)
como apresentado na figura 3.

Entrada
x[n]

DFT

Modulo
| |

Amplitude

C filtros

espectral

l og ()

C bandas
espectrais

Figura 3 Etapas do clculo das componentes Mel Cepstrais

DCT

MFCCs
Cn

O banco de filtros em escala mel pode ser obtido de diferentes formas sendo as principais variaes esto no
nmero de filtros; no formato do filtro, triangular, quadrado ou de Schroeder (HERMANSKY, 1990); em suas
posies, com ou sem sobreposio do espectro; com amplitude unitria ou rea unitria. A abordagens de
Cardoso (2009) sugere um banco de filtros de rea unitria, sendo o primeiro tero dos filtros com largura
constante at 1 kHz e os dois teros finais com largura logartmica at o fim do espectro. A figura 4 apresenta
algumas configuraes de bancos de filtros que podem ser utilizados. O trabalho de Zheng, Zhang e Song
(2001) discute sobre diferentes formas de obteno dos MFCCs, explorando tambm a escala Bark (SMITH;
ABEL, 1999), e concluem que o banco de filtros retangular com sobreposio e de mesma amplitude produz
melhores resultados.

Figura 4 Exemplos de Bancos de Filtros para obteno de componentes mel cepstrais.


Tendo como |X [k]| o mdulo da transformada de Fourier do frame x[n] calculado utilizando a janela espectral
de Hanning 2 e Hn [k] o n-simo dos C filtros na escala mel, obtm-se S n como:
N
2

Sn =

1
X

| X [k] | Hn [k]

k=0

Assim, cada coeficientes mel cepstrais obtido pela transformada discreta cosseno da forma:


1
cn =
l og (S k )cos n k
2 K
k=1
K
X

para n = 1, 2, ...,C .

Outras abordagens so sugeridas por Cuadros et al. (2007) para o clculo da transformada discreta cosseno
utilizando no somatrio da equao anterior apenas o valor de k i onde i o indice do i-simo filtro.

2n
A janela de Hanning definida como: w[n] = 0.5 1 cos N
1 .

Consideraes finais
Este pequeno resumo sobre componentes mel cepstrais no detalha e no aprofunda-se nas bases do MFCC,
para tal uma abordagem mais profunda sobre a anlise cepstral, tipos de escalas, diferentes tipos de bancos
de filtros e tambm das diferentes abordagens para a transformada cosseno seriam necessrias para esgotar
o assunto, isso sem citar uma vasta gama de diferentes caractersticas utilizadas para representar material
acstico.
O objetivo deste texto foi cumprido apenas em trabalhar mais especificamente o algoritmo para computao
de MFCC mais difundido e utilizado nos sistemas de automticos de verificao de locutor.

Referncias

BOGERT, B. P.; HEALY, M. J.; TUKEY, J. W. The quefrency alanysis of time series for echoes: Cepstrum,
pseudo-autocovariance, cross-cepstrum and saphe cracking. In: CHAPTER. Proceedings of the symposium on
time series analysis. [S.l.], 1963. v. 15, p. 209243. Citado na pgina 1.
BRIGHAM, E. O. The Fast Fourier Transform and Applications. [S.l.]: Englewood Cliffs, NJ, 1988. 448 p. Citado
na pgina 3.
CARDOSO, D. P. Identificao de locutor usando modelos de mistura de gaussianas. Dissertao (Mestrado)
Escola Politcnica da Universidade de So Paulo, 2009. Citado na pgina 5.
CHILDERS, D. G.; SKINNER, D. P.; KEMERAIT, R. C. The cepstrum: A guide to processing. Proceedings of the
IEEE, IEEE, v. 65, n. 10, p. 14281443, 1977. Citado 2 vezes nas pginas 1 e 2.
CUADROS, C. D. et al. Comparaao entre as tcnicas de mfcc e zcpa para reconhecimento robusto de locutor
em ambientes ruidosos. Rio de Janeiro, RJ, 2007. Citado na pgina 5.
HERMANSKY, H. Perceptual linear predictive (plp) analysis of speech. the Journal of the Acoustical Society of
America, Acoustical Society of America, v. 87, n. 4, p. 17381752, 1990. Citado na pgina 5.
OPPENHEIM, A. V.; SCHAFER, R. W. Discrete-Time Signal Processing. [S.l.]: Pearson, 2010. Citado na pgina
2.
OSHAUGHNESSY, D. Speech communication: human and machine. [S.l.]: Addison-Wesley Pub. Co., 1987.
(Addison-Wesley series in electrical engineering). ISBN 9780201165203. Citado na pgina 3.
RAO, K. R.; YIP, P.; RAO, K. R. Discrete cosine transform: algorithms, advantages, applications. [S.l.]: Academic
press Boston, 1990. Citado na pgina 4.
SILVIA, M. T.; ROBINSON, E. A. Use of the kepstrum in signal analysis. Geoexploration, Elsevier, v. 16, n. 1, p.
5573, 1978. Citado na pgina 3.
SMITH, J. O.; ABEL, J. S. Bark and erb bilinear transforms. Speech and Audio Processing, IEEE Transactions on,
IEEE, v. 7, n. 6, p. 697708, 1999. Citado na pgina 5.
STEVENS, S. S.; VOLKMANN, J.; NEWMAN, E. B. A scale for the measurement of the psychological magnitude
pitch. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 8, n. 3, p. 185190,
1937. Citado na pgina 3.
TOGNERI, R.; PULLELLA, D. An overview of speaker identification: Accuracy and robustness issues. IEEE
Circuits And Systems Magazine, Second Quarter 2011. Citado na pgina 4.

ZHENG, F.; ZHANG, G.; SONG, Z. Comparison of different implementations of mfcc. Journal of Computer
Science and Technology, Springer, v. 16, n. 6, p. 582589, 2001. Citado na pgina 5.

Das könnte Ihnen auch gefallen