짤방.jpg

머리글
CD와 MP3파일 모두 Digital신호로 구성되어 있습니다. 그리고 대부분의 mp3파일은 CD와 마찬가리로 44.1KHz의 Sampling주파수와 16bit의 bit rate 규격으로 되어 있습니다. 그런데 같은 노래의 경우 mp3의 크기는 CD의 크기에 비하여 대략 10배 정도 작습니다. (128Kbps의 경우)
압축을 해서 그렇다고는 하지만 일반적인 zip 파일 같은 경우 압축을 한 후에도 1/10로 용량이 줄어드는 경우는 거의 없습니다. 그러면 도대체 mp3는 왜 그렇게 용량이 작은 것일까요?

MP3파일의 압축 방식
MP3파일의 압축 방식은 "손실압축방식"입니다. 즉 소리를 MP3로 만든 후 다시 재생을 하면 원래의 소리가 100% 재생이 되는 것이 아닙니다. zip파일의 경우는 "무손실 압축방식"이므로 압축을 했다가 다시 풀어도 원신호의 100% 복구가 가능한데 비하여, mp3의 경우에는 없어지는 부분이 생기게 됩니다. 즉 손실이 생기게 됩니다.
이런 손실을 만들 때는 이런 소리는 없애도 되고, 저런 소리는 없애면 안되고 하는 기준 같은 것이 있어야 하는데, mp3에서 사용을 하는 이러한 기준은 "청각 심리학"(Psychoacoustic)"지각부호화"(Perceptual Coding)입니다.

청각 심리학(Psychoacoustic)

청각 심리학을 간단하게 설명 드리자면 "실제의 소리와 사람이 인식을 하는 소리와는 차이가 있다"는 점 입니다. 즉 들리는 소리 중 사람이 인식하지 못하는 소리가 있다는 것입니다.

최소 가청한계
전에 제가 작성을 한 "무소음 컴퓨터를 위한 소리의 기본지식" 편을 보신 분은 기억을 하시겠지만 아래와 같은 "등첨감 곡선"이 있습니다. 등첨감 곡선 중 제일 아래의 threshold 즉 임계치 곡선의 의미는, 사람의 인식이 가능한 최저의 읍압(SPL)으로 이러한 임계치 이하의 소리는 인식을 할 수 없습니다. 따라서 이런 임계치 이하의 소리(회색의 대각선으로 빗금 친 부분)는 생략을 하여도 사람이 느끼지 못하게 됩니다. 
 

Equal-Loudness.png
그림1. 등청감 곡선
출처 : 위키 대백과 사전

그리고 사람이 들을 수 있는 주파수 대역 역시 임계치가 있습니다. 일반적인 가청주파수 대역은 20Hz ~ 20kHz까지를 말합니다만 대부분의 사람들은 15kHz이상의 소리를 잘 못 듣습니다. 따라서 15kHz이상의 소리를 생략해도 잘 구분을 못하게 됩니다.

마스킹 효과(Masking Effect)
마스킹 효과는 "특정한 소리를 인식할 때는 주위의 소리에 영향을 받는다."라는 것입니다. 예를 들면 기차역에서 친구와 대화를 잘 하고 있다가 기차가 지나가면 기차 소리가 너무 커서 대화가 불가능해집니다. 즉 "큰 소리(기차가 지나가는 소리)에 작은 소리(친구와의 대화소리)가 가려져서(Masking) 작은 소리가 들리지 않게 되는 효과"를 말합니다.
이러한 Masking효과는 무소음 컴퓨터를 꾸미려고 하셨던 분들은 아마 잘 아실 겁니다. 팬 소리가 시끄러워 조용한 팬으로 교체를 하면 이제는 하드 디스크 소리가 시끄러워 지고 그래서 하드 디스크 소리도 조용한 놈으로 교체를 하면 이번에는 전원공급장치의 팬 소리가 들리고... 전에는 큰 소리에 가려져서 안 들리던 소리가 단계별로 들리게 됩니다.

지각부호화(Perceptual Coding)
지각 부호화는 청각 심리학의 여러 가지 기준들에 의하여 생략이 되고 남은 신호만을 사용하여 신호화(Coding)를 하는 것을 말합니다. 즉 "인간이 지각할 수 있는 것만을 코드화하여 신호처리를 하는 것"을 말합니다. 이렇게 하면 정보의 양이 줄어들게 되어 CD의 크기보다 약 1/10의 적은 용량으로도 음질이 비슷한 MP3 파일을 만들 수 있게 됩니다.

개인의 청각 특성

사람은 개인마다 고유의 특성이 있습니다. 예를 들면 사람의 혀에는 설유듀라는 것이 있는데 이  설유듀를 통하여 맛을 느낍니다. 와인 감별사나 요리사와 같은 특수한 직업을 가진 분들은 그러한 설유듀가 상당히 발달을 하여 보통 사람들보다 훨씬 민감하게 맛을 느낄 수 있다고 합니다. 이러한 개인의 특성은 사람마다 좋아하는 음식이 다른 이유중의 하나이기도 합니다.
청각 역시 미각과 마찬가지로 사람마다 개인의 특성이 다 다릅니다. 주파수(Frequency)의 경우 대부분의 사람은 15kHz까지만 들을 수 있는 반면에 어떤 사람은 23kHz까지의 소리도 들을 수 있다고 합니다. 음압 (SPL) 역시 개인의 특성에 따라서 최소 음압의 임계치는 사람마다 다릅니다.
그런데 mp3파일은 청각 심리학의 이론을 바탕으로 "지각이 가능한" 소리만을 신호화 하여 처리를 하는 방식입니다. 바로 여기에 문제점이 있습니다. 기준선 즉 "지각이 가능한" 이라는 기준선이 사람마다 모두 다르다는 점 입니다. 따라서 그 기준선을 낮추면 (인코딩 시 전송율을 낮추면) 많은 사람들이 음질에 불만을 가지게 되고 그 기준선을 높이면(인코딩 시 전송율을 높이면) 많은 사람들이 음질에 만족을 하게 됩니다.
하지만 아무리 기준선을 높여도 손실압축 즉 신호의 손실이 발생한다는 점에서 모든 사람을 만족시키지는 못합니다. CD의 소리에도 만족을 하지 못하여 SACD나 DVD-Audio등이 나오고 있는 상황에서 보면 어쩌면 당연한 결과이기도 합니다.

Share
이 게시물과 연관된 게시물 (자동 검색 결과)
profile

Truthful Review Based on Measured Data.
by Tommy Kim