손실 압축의 일반적인 형식

-MP3 (mp3pro \ mp3surround), AAC(*.3gp/*.mp4/*.m4a), atrac3/atrac3+(* *)

먼저 오디오 압축의 원리를 살펴보겠습니다. 인간 청각의 심리 음향 특성 (스펙트럼 마스킹 특성 및 시간 마스킹 특성 등) 을 이용합니다. ) 및 인간의 귀는 신호 진폭, 주파수, 시간에 대한 제한된 분별력을 가지고 있으며, 모든 사람의 귀가 느낄 수 없는 주파수는 인코딩되거나 전송되지 않습니다. 즉, 사람의 귀에 대한 소리 신호의 강도, 음조, 방위에 기여하지 않는 모든 부분 (무관한 부분 또는 관련이 없는 부분이라고 함) 은 인코딩되고 전송되지 않습니다. 느낄 수 없는 부분을 인코딩할 때 큰 수량화 왜곡을 허용하고 청각 임계값 (즉, 사람의 귀가 들을 수 있는 최소 볼륨) 보다 낮게 만들면 사람의 귀는 여전히 느껴지지 않습니다. 오디오 압축은 이러한 기능을 사용하여 작동합니다. 1, 등방성 곡선

인간의 청각의 감도는 주파수에 따라 변한다. 즉, 보통 두 개의 전력은 같지만 주파수가 다른 음조는 다르게 들린다. 등음량 곡선을 보면 인간의 귀가 4KHz 의 주파수에 가장 민감하다는 것을 알 수 있습니다. 즉, 4KHz 에서 감지할 수 있는 음압 수준 (음량) 은 다른 주파수에서는 감지할 수 없습니다. 이것은 덜 민감한 주파수의 왜곡에 대한 조건을 제공한다.

2. 보호

우리는 고등학교 물리학 때 차폐를 배운 적이 있다. 강한 소리 신호가 약한 소리 신호를 가려서 우리가 알아차리지 못하게 했다. 게다가, 두 소리가 시간과 주파수에 가까울 때 차폐작용이 매우 강하다. 그래서 우리는 코드화할 때 코드화되지 않고 차폐된 부분을 전송하지 않을 수 있다. 이렇게 음질은 여전히 큰 손실이 없고, 사람의 귀도 쉽게 알아차리지 못한다.

3. 임계 밴드

사람의 청각에 있어서, 소리의 감지 특성은 선형 주파수 변화 (사람의 청각이 그렇게 좋지 않음) 가 아니라, 일련의 제한된 주파수 대역으로 표현될 수 있는데, 이를 임계 주파수 대역이라고 한다. 간단히 말해서, 전체 주파수 대역을 여러 세그먼트로 나누는 것입니다. 각 주파수 대역에서 인간의 귀에 대한 청각 인식은 동일합니다. 즉, 심리 음향 특성은 동일합니다.

어차피 코딩의 본질은 알고리즘이다. 1, MP3(MP3 pro \ MP3 궤도)

MP3 는 가장 널리 사용되는 손실 압축 디지털 오디오 형식으로 간주되어야 합니다. 전체 이름은 MPEG (모션 이미지 전문가 그룹) 오디오 레이어 -3 입니다. 1987 독일 플로엔호프 연구소에서 개발한 손실 압축 디지털 오디오 형식으로 1989 에서 특허를 받았습니다. 처음엔 완벽하지 않았고, 코드 표준 틀처럼 사람들에게 완벽을 남겨주었다. 1992 년, 이 기술은 MPEG 사양에 포함되어 공식적으로-MP3 로 명명되었습니다.

MP3 파일은 MP3 파일의 최소 구성 단위인 프레임으로 구성됩니다. 프레임워크란 무엇입니까? 최초의 애니메이션이 어떻게 만들어졌는지 기억하시나요? 서로 다른 연속 화면을 전환하여 동적 효과를 얻습니다. 각 화면은 하나의 "프레임" 이지만 MP3 의 프레임은 그래픽 데이터가 아닌 오디오 데이터를 기록합니다. MP3 의 프레임 속도는 초당 약 30 프레임입니다.

각 프레임은 비트율 및 샘플링 속도 지표를 포함한 프레임에 대한 기본 정보를 기록하는 프레임 헤더와 프레임 데이터로 구성됩니다. 이는 ABR 및 VBR 인코딩 방법을 이해하는 데 매우 중요합니다. 프레임 데이터는 이름에서 알 수 있듯이 주요 오디오 데이터를 기록하는 것입니다.

모두 MP3 코딩의 기초이지만, 실제로 초기 인코더는 매우 불완전하고 압축 알고리즘은 거의 거칠고 음질도 좋지 않았습니다. MP3 의 음질은 인식 모델의 도입과 VBR 기술의 적용이라는 두 가지 도약을 했다.

PS: VBR 은 variableBitrate 의 약어입니다. 즉, MP3 파일이 압축될 때 비율이 높으면 압축 속도가 자동으로 낮아지고, 비율 요구 사항이 낮을 경우 자동으로 비율이 높아집니다. 이렇게 하는 목적은 온라인 파일 재생 속도를 높이고 로컬 재생 시 사용되는 시스템 리소스를 줄이는 것입니다. 이 알고리즘은 노래의 복잡한 부분을 높은 비트율로 인코딩하는 알고리즘입니다. 아이디어는 좋지만 유감스럽게도 인코더의 알고리즘은 매우 나쁘고 음질은 CBR 과는 거리가 멀다. 다행히도 Lame 은 VBR 알고리즘을 완벽하게 최적화하여 MP3 에 가장 적합한 인코딩 모드가 되었습니다. 품질을 보장하면서 파일 크기를 고려하는 방법이며 인코딩 방법을 권장합니다.

MP3 는 지금까지 생존할 수 있지만, 그것의 발전은 멈추지 않았다. 2006 54 38+0 6 월 14 일 프랑스 톰슨과 미국 RCA 가 공동으로 새로운 압축 형식인 MP3PRO 를 출시했습니다. MP3PRO 는 MP3 기술을 기반으로 개선되어 SBR(SpectralBandReplication) 이라고 하는 CodingTechnologies 가 개발한 코덱 향상 기술을 채택했습니다. MP3PRO 파일을 만들 때 인코더는 오디오를 두 부분으로 나눕니다. 일부는 오디오 데이터의 저주파 부분을 분리하여 기존의 MP3 기술 인코딩을 통해 정상적인 MP3 오디오 스트림을 얻습니다. 이를 통해 MP3 인코더는 더 나은 품질을 위해 저주파 신호 압축에 집중할 수 있으며 원래의 MP3 플레이어가 MP3PRO 파일을 재생할 수 있습니다. 또 다른 부분은 분리된 고주파 신호를 인코딩하여 MP3 스트림에 내장하는 것입니다. 기존의 MP3 플레이어는 이를 무시하지만 새로운 MP3PRO 플레이어는 이를 복원하고 결합하여 고품질의 전체 대역폭 사운드를 얻습니다. 이 기술을 통해 MP3 Pro 는 64 kbps 의 인코딩 속도에서 128Kbps 에서 MP3 와 동일한 음질을 제공할 수 있으며, 음질은 거의 같지만 부피는 MP3 의 절반에 불과합니다.

PSP 는 MP3PRO 를 지원하며, MP3PRO 를 지원하는 형식 변환 소프트웨어도 많이 있습니다. 너는 인터넷에서 그들을 찾을 수 있다. 흥미가 있으면 시도해 볼 수 있습니다. 확실히 MP3 보다 낫다.

톰슨은 2004 년 2 월 초 세계에서 가장 인기 있는 음악 압축 형식 MP3 를 멀티 채널 시대로 공식 발표했다. MP3SURROUND 는 FraunhoferIIS 와 Agere 가 공동으로 개발한 듀얼 귀 CCC (Cue Coding) 기술을 이용한 심리 음향학 코딩으로 다중 채널 서라운드 및 파일 크기를 보장합니다. 동시에 추가된 AgereSystems 는 주로 다중 채널 MP3 형식인 MP3 서라운드 홍보를 담당하고 있습니다. MP3SURROUND 기술은 5. 1 채널 서라운드 고품질 오디오를 구현하여 인터넷 음악 배포, 방송 시스템, PC 시청각 애플리케이션, 게임 오디오, 소비자 전자, 자동차 오디오 등에서 광범위하게 사용할 수 있습니다. 여러 채널이 통합되어 있지만 Thomson 은 MP3SURROUND 파일이 일반 MP3 (샘플링 속도와 동일) 에 비해 크게 증가하지 않고 다른 서라운드 다중 채널 오디오 형식의 절반만 있다고 말합니다. 더 중요한 것은 MP3SURROUND 가 기존 MP3 소프트웨어 및 MP3 플레이어에서 정상적으로 사용할 수 있는 호환성을 제공한다는 점입니다.

2, AAC(*.3gp/*.mp4/*.m4a)

AAC 는 Fraunhofer Institute, Dolby 및 AT & amp；; 에서 AdvancedAudioCoding 의 약어입니다 T*** 같은 회사에서 개발했습니다. AAC 는 MPEG-2 사양의 일부로, 8Kbps 속도의 모노 전화 음질에서 160Kbps 의 다채널 초고질 오디오 범위 내 인코딩에 적용됩니다. MP3 에 비해 AAC 는 스테레오 사운드의 완벽한 재현, 비트 스트림 효과 사운드의 스캔, 멀티미디어 제어, 소음 감소 최적화 등 MP3 오디오 형식에서 볼 수 없는 몇 가지 기능을 추가합니다. , 오디오 압축 후에도 CD 의 음질을 완벽하게 재현할 수 있습니다. 또한 최대 48 개의 트랙, 15 개의 저주파 트랙, 더 많은 샘플링 속도와 비트율, 다국어 호환성 및 디코딩 효율성을 지원합니다. 결론적으로, AAC 는 MP3 파일보다 30% 작다는 전제하에 더 좋은 음질을 제공할 수 있다.

이제 이러한 모듈 중 일부를 설명하겠습니다.

게인 제어

게인 제어 모듈은 가변 샘플링 속도 구성에 사용되며 다상 직교 필터 PQF(polyphasequaturefilter), 게인 감지기 및 게인 조절기로 구성됩니다. 이 모듈은 입력 신호를 4 개의 대역폭이 같은 밴드로 나눕니다. 디코더에는 PQF 의 고주파 하위 밴드 신호를 무시하여 낮은 샘플링 속도 출력 신호를 얻을 수 있는 게인 제어 모듈도 있습니다.

필터 뱅크 (필터 뱅크)

필터 뱅크는 입력 신호를 시간 영역에서 주파수 영역으로 변환하는 변환 모듈이며 MPEG-2AAC 시스템의 기본 모듈입니다. 이 모듈은 선형 직교 겹침 변환인 향상된 이산 코사인 변환 MDCT 를 사용하며 TDAC (시간 영역 겹침 제거) 라는 기술을 사용합니다. MDCT 는 KBD(Kaiser-Besselderived) 창이나 정현파 창을 사용하며 정방향 MDCT 변환은 다음 공식으로 나타낼 수 있습니다.

MDCT 역변환은 다음 공식으로 나타낼 수 있습니다.

그 중에서도,

N= 샘플 수,

N= 변환 블록 길이,

I= 블록 번호,

위의 두 이산 코사인 변환 공식은 이산 함수와 수학 방정식에 자세히 설명되어 있어 관심 있는 게이머만 이해할 수 있으므로 깊이 연구할 필요가 없습니다.

순간 소음 성형 TNS

감지 사운드 인코딩에서 TNS 모듈은 정량화된 소음의 즉각적인 모양을 제어하는 방법으로 마스킹 임계값과 정량화된 소음이 일치하지 않는 문제를 해결합니다. 이 기술의 기본 사상은 시간의 기음 신호가 주파수 영역에서 일시적인 최고치를 가지고 있다는 것이다. TNS 는 이러한 이중성을 사용하여 알려진 예측 코딩 기술을 확장하고 실제 신호 아래에 양적 노이즈를 배치하여 잘못된 일치를 방지합니다.

통합 스테레오 코딩

Jointstereocoding 은 중복 공간 정보를 제거하기 위한 공간 코딩 기술입니다. MPEG-2AAC 시스템에는 중간/측면 인코딩과 강도/결합의 두 가지 공간 인코딩 기술이 포함되어 있습니다. M/S 인코딩은 행렬 연산을 사용하므로 M/S 인코딩을 matrixedstereocoding 이라고 합니다. M/S 인코딩은 왼쪽 및 오른쪽 채널 신호를 전송하지 않고 표준화된 "and" 및 "불량" 신호를 사용합니다. 전자는 중앙 M (중간) 채널에 사용되고, 후자는 측면 S (측면) 채널에 사용되므로 M/S 인코딩은 "및 차이 인코딩" 이라고도 합니다. 사운드 강도/커플 링 코드에는 많은 이름이 있으며 그 중 일부는 intensitystereocoding 또는 channelcouplingcoding 이라고 합니다. 그들이 논의하는 기본적인 문제는 채널 간의 관련성이 없다는 것이다.

예측 (예측)

이것은 주로 부드러운 신호의 중복을 줄이기 위해 음성 코딩 시스템에서 널리 사용되는 기술입니다.

수량화기 (수량화기)

비균일 수량화기를 사용했습니다.

잡음 코딩 없음 (잡음 코딩 없음)

잡음 없는 인코딩은 실제로 호프만 인코딩으로 수량화된 스펙트럼 계수, 배율 계수 및 방향 정보를 인코딩합니다.

PS: 저는 개인적으로 AAC 를 좋아해서 상세하게 썼어요. 너는 한번 시도해 보아도 무방하다. 확실히 MP3 보다 낫다. 아이튠즈 6 을 사용하여 AAC(*.m4a) 를 변환할 수 있습니다. 아이튠즈 6 AAC 의 작동은 매우 간단합니다. AAC(*.3gp\*.mp4\*.m4a) 를 [음악] 에 직접 복사하여 재생할 수 있습니다.

Aac 는 현재 가장 좋은 손실 압축 방법이라고 할 수 있다.

최고 품질의 pu (육안) 는 손상이 없어 분간할 수 없다.

3, ATRAC3/ATRAC3+(*.aa3)

일찍이 MD 를 해 본 친구들은 소니가 MD 를 위한 ATRAC 오디오 형식 알고리즘이 소니의 NetworkWalkman 과 같은 휴대용 오디오 장치에 광범위하게 적용되었다는 것을 알고 있다. "ATRAC3plus" 는 "어댑티브 음성 코딩 3+" 를 의미하며, 2002 년에 점점 더 완벽해지는 심리 음향학의 원리에 기반한 오디오 압축 기술입니다. 이 기술은 MD Walkman 의 부피를 아주 작은 이론적 기초로 축소하는 것이다.

ATRAC3/ATRAC3+ 를 분석하려면 먼저 그 맏형인 ——ATRAC 알고리즘에 대해 이야기해야 합니다. 디지털 오디오 데이터를 압축할 때, 일반적으로 신호에 일정량의 양적 소음이 도입된다. 이러한 신호가 눈에 띄지 않도록 오디오 코딩을 통해 신호를 각각 특정 시간-주파수 범위에 해당하는 단위 세트로 분해하는 것이 일반적입니다. 인코더는 위에서 언급한 심리 음향학의 원리에 따라 분석하여 중요한 단위를 고정밀 인코딩합니다. 민감하지 않은 단위의 경우 인간의 귀 인식 품질에 영향을 주지 않고 양적 소음을 유지할 수 있습니다. 디코딩할 때 비트 할당에 따라 양자화 스펙트럼을 다시 설정한 다음 오디오 신호를 합성합니다.

ATRAC 도 예외는 아니지만 몇 가지 개선 사항이 있습니다. ATRAC 는 또한 서브 밴드 디코딩 및 변환 디코딩 기술을 적용하여 중요한 저음 영역의 불균일 한 주파수 분할을 강조하기 위해 신호를 입력합니다. 또한 ATRAC 는 가변 블록 길이를 사용하여 입력 신호를 변경하므로 안정적으로 통과할 때 효율적인 디코딩을 보장하고 순간적으로 통과할 때 시간 해상도에 영향을 주지 않습니다. 특히 입력 신호를 5.5 125KHz 와 1 1.025KHz 의 3 개 밴드로 나누고 하위 밴드의 분해는 QMF (Quadraturemirrorff 이 세 밴드는 MDCT (향상된 플로피 코사인 변환) 이산 코사인 변환 인덱스로, 일반적인 고속 푸리에 변환과 유사하며 고급 수학 II 및 수학 방정식에 설명되어 있습니다. ) 는 스펙트럼 값으로 변환되며, MDCT 는 블록 간에 50% 의 겹침을 허용하므로 임계 샘플링을 유지하면서 주파수 해상도를 높일 수 있습니다. 신호 종류에 따라 블록 길이를 변경할 수 있습니다. 이는 ATRAC 의 어댑티브 부분입니다. 이는 주로 마스크를 사용하여 초기 정량화 노이즈를 마스킹하는 것입니다.

ATRAC 알고리즘이 10 년 동안 발전해 시장 수요를 충족시킬 수 없게 되자 소니는 2002 년 8 월에 새로운 알고리즘을 도입했습니다.

ATRAC3/ATRAC3+. ATRAC 에 비해 핵심 알고리즘은 본질적으로 변하지 않지만 향상된 대역 분리 필터 및 MDCT 를 채택하고 게인 조정, 음조 컴포넌트 분리, 통합 스테레오 등의 기술을 사용하여 오디오 압축 데이터의 양을 더욱 줄입니다.

4, AAL(ATRACAdvancedLossless)

AAL 은 ATRACAdvancedLossless coding (어댑티브 음향 변환) 의 약어로 소니에서 새로 개발한 오디오 압축 형식입니다. 무손실 압축, 오디오 정보 손실 없음, CD 한 장을 원래 30%-80% 로 압축할 수 있는 기능이 특징입니다.

5, 오그

Ogg 의 전체 이름은 ogg Vorbis (OGG Vorbis) 여야 합니다. 이는 MP3 와 같은 기존 음악 형식과 유사한 새로운 오디오 압축 형식입니다. 하지만 한 가지 차이점은, 그것은 완전히 무료이고, 개방적이며, 특허 제한이 없다는 것이다. OGG Vobis 의 두드러진 특징은 다중 채널을 지원한다는 것이다. 그것이 보급됨에 따라 앞으로 walkman 으로 DTS 코딩을 듣는 다채널 작품은 꿈이 아닐 것이다.

Vorbis 는 이 오디오 압축 메커니즘의 이름이고, Ogg 는 완전히 개방된 멀티미디어 시스템을 설계하려는 프로젝트의 이름입니다.

Ogg Vorbis 파일의 확장자는 입니다. OGG 입니다. 이 문서의 디자인 형식은 매우 고급스럽다. 만든 OGG 파일은 모든 플레이어에서 재생할 수 있으므로 파일 형식은 기존 인코더나 플레이어에 영향을 주지 않고 크기와 사운드 품질을 지속적으로 향상시킬 수 있습니다.

Aac 에 비해 저주파가 약간 우세하고 고주파수가 약간 떨어진다.

최고 품질의 pu (육안) 는 손상이 없어 분간할 수 없다.

최고 품질인 Q 10 은 AAC 가 faac 인코딩을 사용하는 최고 품질인 Q500 의 거의 두 배입니다.

코드는 오픈 소스입니다.