๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
์นดํ…Œ๊ณ ๋ฆฌ ์—†์Œ

MFCC(Mel-Frequency Cepstral Coefficient)

by Jenny:! 2024. 5. 20.

โœ…MFCC๋ž€?

  • MFCC
    • ์˜ค๋””์˜ค ์‹ ํ˜ธ์—์„œ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์†Œ๋ฆฌ์˜ ๊ณ ์œ ํ•œ ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜
    • ๊ธฐ์ˆ ์ ์œผ๋กœ๋Š” Mel Spectrum์—์„œ Cepstral ๋ถ„์„์„ ํ†ตํ•ด ์ถ”์ถœ๋œ ๊ฐ’์„ ์˜๋ฏธ
  • MFCC ์‚ฌ์šฉ ์˜ˆ
    • ํ™”์ž ๊ฒ€์ฆ(Speaker Verification)
      • ํ™”์ž ์ธ์‹(Speaker Recognition)์˜ ์„ธ๋ถ€ ๋ถ„๋ฅ˜
      • ํ™”์ž๊ฐ€ ํŠน์ • ๊ทธ ์‚ฌ๋žŒ์ด ๋งž๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๋Š” ๊ธฐ์ˆ 
      • ์‹œ์Šคํ…œ์— ๋“ฑ๋ก๋œ ํŠน์ •ํ•œ ์Œ์„ฑ์œผ๋กœ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ํ™”์ž๋ฅผ ํ™•์ธ
    • ์Œ์•… ์žฅ๋ฅด ๋ถ„๋ฅ˜(Music Genre Classification)
      • ์Œ์•…์˜ ํŠน์ • ๊ตฌ๊ฐ„์—์„œ ์—ฌ๋Ÿฌ feature๋ฅผ ์ถ”์ถœํ•˜์—ฌ ์žฅ๋ฅด๋ฅผ ๋ถ„๋ฅ˜

โ˜‘๏ธMFCC์˜ ์ถ”์ถœ ๊ณผ์ •

  1. ์˜ค๋””์˜ค ์‹ ํ˜ธ๋ฅผ ํ”„๋ ˆ์ž„๋ณ„(๋ณดํ†ต 20-40ms)๋กœ ๋‚˜๋ˆˆ๋‹ค
  2. ๋‚˜๋ˆˆ ๊ฐ ํ”„๋ ˆ์ž„์— ๋Œ€ํ•ด FFT๋ฅผ ์ ์šฉํ•ด Spectrum์„ ๊ตฌํ•œ๋‹ค
  3. Spectrum์— Mel Filter Bank๋ฅผ ์ ์šฉํ•ด Mel Spectrum์„ ๊ตฌํ•œ๋‹ค
  4. Mel Spectrum์— Cepstral Analysis์„ ์ ์šฉํ•ด MFCC๋ฅผ ๊ตฌํ•œ๋‹ค

 

โœ…FFT(Fast Fourier Transform)

  • FFT
    • ์‹ ํ˜ธ๋ฅผ ์‹œ๊ฐ„ ์ฐจ์›์—์„œ ์ฃผํŒŒ์ˆ˜ ์„ฑ๋ถ„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜
    • ๊ธฐ์กด์˜ ์ด์‚ฐ ํ‘ธ๋ฆฌ์— ๋ณ€ํ™˜(DFT)์„ ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์ตœ์ ํ™”๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • ๋‹จ์ 
    • ์‹œ๊ฐ„๋„๋ฉ”์ธ์˜ ์ •๋ณด๋ฅผ ์™„์ „ํžˆ ์žƒ์–ด๋ฒ„๋ฆผ
    • ์ฆ‰, ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ฅธ ์ฃผํŒŒ์ˆ˜ ๋ณ€ํ™˜์€ ์•Œ๊ธฐ ์–ด๋ ค์›€

โœ…Spectrum

  • Spectrum
    • ์ฃผํŒŒ์ˆ˜(๊ฐ€๋กœ์ถ•)์— ๋”ฐ๋ฅธ ์Œ์••(์„ธ๋กœ์ถ•)์˜ ํ‘œํ˜„
    • ๊ฐ ์ฃผํŒŒ์ˆ˜ ๋Œ€์—ญ๋ณ„ ์„ธ๊ธฐ๋ฅผ ์•Œ ์ˆ˜ ์žˆ์Œ
  • ๋ฐฐ์Œ ๊ตฌ์กฐ
    • ์†Œ๋ฆฌ๋Š” ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜(fundamental frequency)์™€ ํ•จ๊ป˜ ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜์˜ ์ •์ˆ˜๋ฐฐ์ธ ๋ฐฐ์Œ(harmonics)๋“ค๋กœ ๊ตฌ์„ฑ๋จ
    • ๋ฐฐ์Œ ๊ตฌ์กฐ๋Š” ์•…๊ธฐ๋‚˜ ์„ฑ๋Œ€์˜ ๊ตฌ์กฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฉฐ, ๋ฐฐ์Œ ๊ตฌ์กฐ์˜ ์ฐจ์ด๊ฐ€ ์Œ์ƒ‰์˜ ์ฐจ์ด๋ฅผ ๋งŒ๋“ฆ

๋”ฐ๋ผ์„œ, Spectrum์—์„œ ๋ฐฐ์Œ ๊ตฌ์กฐ๋ฅผ ์œ ์ถ”ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋ฉด ์†Œ๋ฆฌ์˜ ๊ณ ์œ ํ•œ ํŠน์ง•์„ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ์Œ

 

โœ…Cepstral Analysis

  • ํฌ๋จผํŠธ(Formants)
    • ํ”ผํฌ(peak), ์†Œ๋ฆฌ๊ฐ€ ๊ณต๋ช…๋˜๋Š” ํŠน์ • ์ฃผํŒŒ์ˆ˜ ๋Œ€์—ญ์„ ๋œปํ•จ
    • ์†Œ๋ฆฌ๋Š” ์„ฑ๋„๋ฅผ ์ง€๋‚˜๋ฉด์„œ ํฌ๋จผํŠธ๋ฅผ ๋งŒ๋‚˜ ์ฆํญ๋˜๊ฑฐ๋‚˜ ๊ฐ์‡ ๋จ
    • ํฌ๋จผํŠธ๋Š” ๋ฐฐ์Œ๊ณผ ๋งŒ๋‚˜ ์†Œ๋ฆฌ์˜ ํ•„ํ„ฐ ์—ญํ• ์„ ํ•จ
    • ๋”ฐ๋ผ์„œ, ํฌ๋จผํŠธ๋Š” ์†Œ๋ฆฌ์˜ ํŠน์ง•์„ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ๋Š” ์ค‘์š”ํ•œ ๋‹จ์„œ์ž„
  • Spectral Envelope
    • ํฌ๋จผํŠธ๋“ค์„ ์—ฐ๊ฒฐํ•œ ๊ณก์„ 
  • Cepstral Analysis
    • Spectral Envelope์—์„œ Spectrum์„ ๋ถ„๋ฆฌํ•˜๋Š” ์ž‘์—…
    • log์™€ IFFT(Inverse FFT - ์—ญ ๊ณ ์† ํ‘ธ๋ฆฌ์— ๋ณ€ํ™˜) ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์‚ฌ์šฉ๋จ

 

โœ…Mel Spectrum

  • Mel Scale
    • ์‚ฌ๋žŒ์˜ ์ฒญ๊ฐ๊ธฐ๊ด€์€ ๊ณ ์ฃผํŒŒ์ˆ˜(high frequency) ๋ณด๋‹ค ์ €์ฃผํŒŒ์ˆ˜(low frequency) ๋Œ€์—ญ์—์„œ ๋” ๋ฏผ๊ฐ
    • ์‚ฌ๋žŒ์˜ ์ด๋Ÿฐ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•ด ๋ฌผ๋ฆฌ์ ์ธ ์ฃผํŒŒ์ˆ˜์™€ ์‹ค์ œ ์‚ฌ๋žŒ์ด ์ธ์‹ํ•˜๋Š” ์ฃผํŒŒ์ˆ˜์˜ ๊ด€๊ณ„๋ฅผ ํ‘œํ˜„ํ•œ ๊ฒƒ
    • Filter Bank๋ฅผ ๋‚˜๋ˆŒ ๋•Œ ์–ด๋–ค ๊ฐ„๊ฒฉ์œผ๋กœ ๋‚˜๋ˆ ์•ผ ํ•˜๋Š”์ง€ ์•Œ๋ ค์ฃผ๋Š” ์—ญํ• 
  • Mel Spectrum
    • Mel Scale์— ๊ธฐ๋ฐ˜ํ•œ Filter Bank๋ฅผ Spectrum์— ์ ์šฉํ•˜์—ฌ ๋„์ถœํ•œ ๊ฒƒ

โœ…STFT(Short-Time Fourier Transform)

  • STFT
    • time window๋ฅผ ์›€์ง์ด๋ฉฐ FFT๋ฅผ ์ˆ˜ํ–‰์‹œํ‚ค๋Š” ๊ฒƒ
  • ๋‹จ์ 
    • ์ดˆ๊ธฐ ์‹ ํ˜ธ๋ฅผ Window length์— ๋”ฐ๋ผ ๋ถ„๋ฆฌ์‹œํ‚ค๊ธฐ ๋•Œ๋ฌธ์— ํ‘ธ๋ฆฌ์— ๋ณ€ํ™˜์— ์‚ฌ์šฉ๋˜๋Š” ์‹ ํ˜ธ์˜ ๊ธธ์ด๋ฅผ ๊ฐ์†Œ์‹œํ‚ค๊ณ , ๋”ฐ๋ผ์„œ ์ฃผํŒŒ์ˆ˜ Resolution์ด ์•…ํ™”๋จ
    • Window length๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ ์ฃผํŒŒ์ˆ˜ Resolution์„ ํ–ฅ์ƒ์‹œ์ผœ๋„, ์‹œ๊ฐ„์— ๋Œ€ํ•œ Recolution์€ ๋ฐ˜๋Œ€๋กœ ์•…ํ™”๋จ

 


์ฐธ๊ณ 

https://brightwon.tistory.com/11