현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 사진의 오디오 형식 소개 및 비교 (전문가)
사진의 오디오 형식 소개 및 비교 (전문가)
내용 소개: 이 문서에서는 펄스 코드 변조, WMA 인코딩, ADPCM 인코딩, LPC 인코딩, MP3 인코딩, AAC 인코딩, CELP 인코딩 등에 대해 설명합니다. , 장점과 단점 비교 및 ​​주요 응용 분야를 포함합니다.

펄스 코드 변조 (원시 디지털 오디오 신호 스트림)

유형: 오디오

ITU-T 가 제정했습니다.

필요한 대역폭:1411.2kbps.

특징: 음원 정보는 완전하지만 중복이 너무 큽니다.

장점: 음원 정보는 완벽하게 보존되고 음질은 좋습니다.

단점: 정보량이 많고 부피가 크며 중복이 너무 많습니다.

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: 컴퓨터 어플리케이션에서 펄스 코드 변조는 가장 높은 충실도를 달성할 수 있으며, 소재 보존과 음악 감상, CD, DVD 및 일반적인 WAV 파일에도 널리 사용됩니다. 따라서 PCM 관행은 무손실 인코딩이 됩니다. PCM 이 디지털 오디오에서 가장 좋은 충실도 수준을 나타낸다고 해서 PCM 이 신호의 절대 충실도를 보장할 수 있는 것은 아닙니다. PCM 은 무한한 근접성을 극대화할 수 있습니다. PCM 오디오 스트림의 비트율을 계산하는 것은 매우 쉽습니다. 샘플 비율 × 샘플 크기 × 채널 수 bps 입니다. 샘플링 속도는 44. 1KHz 이고 샘플링 크기는 16bit 인 펄스 코드 변조 WAV 파일, 데이터 속도는 44.1k ×1입니다 우리가 흔히 볼 수 있는 오디오 CD 는 맥코드로 변조되어 있으며, CD 한 장의 용량은 72 분짜리 음악 정보만 담을 수 있다.

WMA(Windows Media 오디오)

유형: 오디오

제조업체: Microsoft

필요한 대역폭: 320 ~ 1 12 kbps (압축 10 ~ 12 배)

특징: 비트율이 128K 미만인 경우 WMA 는 거의 모든 동급 손실 인코딩 형식에서 가장 잘 작동하지만 128k 는 WMA 에 대한 임계값인 것 같습니다. 비트율이 증가하면 음질은 크게 변하지 않습니다.

장점: 비트율이 128K 보다 작을 경우 WMA 가 가장 효과적이며 인코딩된 오디오 파일이 매우 작습니다.

단점: 비트율이 128K 보다 크면 WMA 가 너무 많은 음질을 잃습니다. WMA 표준은 개방되지 않고 Microsoft 에 의해 제어됩니다.

응용 분야: 인터넷 전화

공제 방법: 별도로 청구합니다.

참고: WMA (전체 이름 Windows Media Audio) 는 MP3 형식과 이름이 같은 Microsoft 의 새로운 오디오 형식입니다. WMA 는 압축비와 음질에서 MP3 를 능가하고 RA(Real Audio) 보다 훨씬 우수하기 때문에 낮은 샘플링 주파수에서도 더 나은 음질을 얻을 수 있습니다. 또한 WMA 는 Microsoft Windows Media Player 의 강력한 뒷받침을 받아 출시하자마자 박수를 받았다.

적응 차동 PCM

유형: 오디오

ITU-T 가 제정했습니다.

필요한 대역폭: 32Kbps

특징: ADPCM (어댑티브 차이 펄스 코드 변조) 은 APCM 의 어댑티브 특성과 DPCM 시스템의 차이 특성을 결합하여 성능이 좋은 파형 인코딩입니다.

핵심 아이디어는 다음과 같습니다.

(1) 어댑티브 사고를 사용하여 정량화 단계의 단계를 변경합니다. 즉, 작은 정량화 단계를 사용하여 작은 차이를 인코딩하고 큰 정량화 단계를 사용하여 큰 차이를 인코딩합니다.

② 실제 샘플 값과 예측 값의 차이가 항상 최소화되도록 이전 샘플 값을 사용하여 다음 입력 샘플의 예측 값을 추정합니다.

장점: 알고리즘의 복잡성이 낮고 압축비가 낮습니다 (CD 음질 >; 400kbps), 코덱 지연 시간이 가장 짧습니다 (다른 기술에 비해).

단점: 음질은 보통이다.

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: ADPCM (ADPCM 어댑티브 차동 펄스 변조) 은 16bit (또는 그 이상) 에 사용됩니까? ) 사운드 파형 데이터의 손실 압축 알고리즘으로 사운드 스트림의 각 샘플 14bit 데이터를 4 비트로 저장하므로 압축비는 1:4 이고 압축/압축 해제 알고리즘은 매우 간단하며 낮은 공간 소비로 고품질 사운드를 얻을 수 있는 좋은 방법입니다.

선형 예측 코딩

유형: 오디오

제조업체:

필요한 대역폭: 2Kbps-4.8Kbps

특징: 압축비가 높고 계산량이 많으며 음질이 낮고 가격이 저렴합니다.

장점: 압축비가 높고 비용이 저렴합니다.

단점: 계산량이 많고 음성 품질이 나쁘며 자연도가 낮다.

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: 매개변수 인코딩 (음원 인코딩이라고도 함) 은 주파수 영역 또는 기타 직교 변환 도메인에서 소스 신호에서 피쳐 매개변수를 추출하여 디지털 코드로 변환하여 전송합니다. 디코딩은 수신된 디지털 시퀀스를 변환하고 피쳐 매개변수를 복원한 다음 피쳐 매개변수에 따라 음성 신호를 재구성하는 역프로세스입니다. 특히 매개변수 인코딩은 음성 신호의 특징 매개변수를 추출하고 인코딩하여 재구성된 음성 신호를 가능한 정확하게 만들려고 하지만 재구성된 음성 신호의 파형은 원본 음성 신호의 파형과 크게 다를 수 있습니다. 예를 들어, 선형 예측 인코딩 (LPC) 및 기타 여러 가지 개선 사항은 매개변수 인코딩입니다. 인코딩 비트율은 2Kbit/s-4.8Kbit/s 이하로 압축할 수 있지만 음성 품질은 중간, 특히 자연도가 낮을 수 있습니다.

코드 여기 선형 예측

유형: 오디오

제조업체: 유럽 통신 표준 협회 (ETSI)

필요한 대역폭: 4 ~ 16 kbps.

특징: 음성 품질 향상

1 인간의 청각의 마스킹 특성을 이용하여 오차 신호에 감각 가중치를 부여하고 음성의 주관적 질을 높인다.

(2) 피치 예측은 점수 지연을 통해 개선되어 탁음 음성이 더욱 정확해지고, 특히 여성성의 질이 향상될 것으로 예상된다.

③ 수정 된 MSPE 지침을 사용하여 "최적" 지연을 찾아 피치 주기 지연의 출현을 더욱 부드럽게 한다.

④ 장기 예측의 효율성에 따라 무작위 인센티브 벡터의 크기를 조절하여 음성의 주관적 품질을 높인다.

⑤ 채널 오류율 추정에 기반한 어댑티브 스무딩 프로그램을 사용하여 높은 채널 오류율 조건에서 높은 자연도의 음성을 합성할 수 있습니다.

결론:

(1) CELP 알고리즘은 낮은 비트율 인코딩 환경에서 만족스러운 압축 효과를 얻을 수 있습니다.

2 빠른 알고리즘을 사용하면 CELP 알고리즘의 복잡성을 효과적으로 줄여 완전히 실시간으로 만들 수 있습니다.

(3) CELP 는 다양한 유형의 음성 신호를 성공적으로 인코딩할 수 있습니다. 이러한 적응성은 실제 환경, 특히 배경 소음이 있는 경우 더욱 중요합니다.

장점: 매우 낮은 대역폭으로 명확한 음성을 제공합니다.

단점:-

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: 1999 년 ETSI (European Communications Standards Association) 는 코드 인센티브 선형 예측 (CELP) 을 기반으로 하는 어댑티브 멀티스피드 음성 인코더 (AMR) 를 출시했으며, 최저 속도는 4.75kb/s 로 통신 품질을 달성했습니다. CELP 코드 인센티브 선형 예측은 코드 인센티브 선형 예측의 약어입니다. CELP 는 최근 10 년 동안 가장 성공적인 음성 인코딩 알고리즘입니다. CELP 음성 코딩 알고리즘은 선형 예측을 사용하여 채널 매개변수를 추출하고 많은 일반적인 인센티브 벡터가 포함된 코드북을 인센티브 매개변수로 사용합니다. 인코딩할 때마다 이 코드북에서 최적의 인센티브 벡터를 검색합니다. 이 인센티브 벡터의 인코딩 값은 코드북에서 이 시퀀스의 일련 번호입니다.

CELP 는 많은 음성 코딩 표준에 의해 채택되고 있으며, 미국 연방 표준인 FS 10 16 은 CELP 의 인코딩 방법으로, 주로 고품질의 좁은 밴드 음성 비밀 통신에 사용됩니다. Celp (코드 인센티브 선형 예측) 낮은 비트율 (4800-9600Kbps), 명확한 음성 품질 및 배경 소음에 대한 높은 내성으로 유명한 단순화된 LPC 알고리즘입니다. CELP 는 중저 비트율에서 널리 사용되는 음성 압축 인코딩 체계입니다.

MPEG- 1 오디오 레이어 1

유형: 오디오

제조업체: MPEG

필요한 대역폭: 384kbps (4 배 압축)

특징: 인코딩이 간단합니다. 디지털 카트리지, 2 채널 및 VCD 에 사용되는 오디오 압축 방식은 MPEG- 1 1 층입니다 .....

장점: 시간 영역 압축 기술에 비해 압축 방식이 훨씬 복잡하며 인코딩 효율성과 음질도 크게 향상되며 인코딩 지연도 그에 따라 증가합니다. "완전 투명한" 음질 (EBU 음질 표준) 을 제공합니다

단점: 대역폭 요구 사항이 높습니다.

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: MPEG- 1 오디오 압축 인코딩은 첫 번째 하이파이 오디오 데이터 압축의 국제 표준이며 세 가지 수준으로 나뉩니다.

-Layer 1(Layer 1): 디지털 카트리지 녹음 테이프용 간단한 코드입니다.

-계층 2: 이 알고리즘은 DAB (디지털 오디오 방송), VCD 등에 사용되는 중간 복잡성을 가지고 있습니다.

-레이어 3: 10 배 MP3 음악 압축과 같은 고품질 사운드를 인터넷을 통해 전송하는 복잡한 인코딩.

Musicam (MPEG- 1 오디오 레이어 2, MP2)

유형: 오디오

제조업체: MPEG

필요한 대역폭: 256 ~ 192 kbps (압축 6 ~ 8 배)

특징: 알고리즘의 복잡성이 적당하여 디지털 오디오 방송 (DAB) 과 VCD 에 사용되며 두 개의 채널이 있습니다. MUSICAM 은 적절한 복잡성과 뛰어난 음질로 디지털 스튜디오, DAB, DVB 등의 디지털 프로그램 제작, 교환, 저장 및 전송에 널리 사용되고 있습니다.

장점: 시간 영역 압축 기술에 비해 압축 방식이 훨씬 복잡하며 인코딩 효율성과 음질도 크게 향상되며 인코딩 지연도 그에 따라 증가합니다. "완전 투명한" 음질 (EBU 음질 표준) 을 제공합니다

단점:

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: MPEG- 1 오디오 레이어 1 과 함께.

MP3(MPEG- 1 오디오 레이어 3)

유형: 오디오

제조업체: MPEG

필요한 대역폭:128 ~112kbps (압축 10 ~ 12 배)

특징: MP3 음악 압축 10 배, 2 채널과 같은 인터넷에서 고품질 사운드 전송을 위한 복잡한 코드입니다. MP3 는 MUSICAM 과 ASPEC 의 장점을 기반으로 하는 혼합 압축 기술입니다. 당시 MP3 의 복잡성은 비교적 높아서 실시간 코딩에 불리하다. 그러나 낮은 비트율로 높은 수준의 음질로 인해 MP3 는 소프트 압축 해제와 인터넷 재생의 총아가 되었다.

장점: 압축비가 높아 인터넷 통신에 적합합니다.

단점: MP3 는 128KBitrate 이하일 때 상당한 고주파 손실을 보입니다.

응용 분야: 인터넷 전화

로열티 지급 방법: 무료

참고: MPEG- 1 오디오 레이어 1 과 함께.

MPEG-2 오디오 레이어

유형: 오디오

제조업체: MPEG

필요한 대역폭: MPEG- 1 레이어 1, 레이어 2 및 레이어 3 과 동일.

특징: MPEG-2 는 MPEG- 1 과 동일한 코덱을 사용하며 레이어 1, 레이어 2, 레이어 3 의 구조는 동일하지만 5. 1 및 7. 을 지원할 수 있습니다

장점: 5. 1 채널과 7. 1 채널의 서라운드 사운드를 지원합니다.

단점:-

응용 분야: 인터넷 전화

공제 방법: 별도로 청구합니다.

참고: MPEG-2 는 MPEG- 1 사운드와 동일한 코덱을 사용하며 레이어 1, 레이어 2, 레이어 3 의 구조는 동일하지만 5. 1 채널 및 7 을 지원할 수 있습니다

고급 오디오 인코딩

유형: 오디오

제조업체: MPEG

필요한 대역폭: 96- 128 kbps.

특징: AAC 는 1 5 저주파 효과 채널, 더빙/멀티파트 채널, 15 데이터 채널을 포함하여148 까지 다양한 오디오 채널 조합을 지원할 수 있습니다. 16 개의 프로그램을 동시에 전송할 수 있으며, 각 프로그램의 오디오 및 데이터 구조는 임의로 지정할 수 있습니다.

AAC 의 주요 응용 프로그램은 위성 생중계와 디지털 AM, 디지털 TV 및 극장 시스템을 포함한 인터넷 통신, 디지털 오디오 방송에 집중될 수 있습니다. AAC 는 매우 유연한 엔트로피 인코딩 코어를 사용하여 인코딩된 스펙트럼 데이터를 전송합니다. 48 개의 주 오디오 채널, 16 개의 저주파 향상 채널, 16 개의 통합 데이터 스트림, 16 개의 더빙, 16 개의 편곡.

장점: 여러 오디오 채널 조합을 지원하여 고품질 음질을 제공합니다.

단점:-

응용 분야: 인터넷 전화

공제 방법: 일회성 수거

참고: AAC 는 1997 년 국제 표준 ISO 138 18-7 을 형성했습니다. 고급 오디오 인코딩-AAC 는 MPEG-2 오디오 표준 (ISO/IEC 138 18-3) 에 이어 차세대 오디오 압축 표준으로 성공적으로 개발되었습니다.

MPEG-2 초기에는 오디오 인코딩 부분이 MPEG- 1 과 호환되도록 하기 위해서였습니다. 그러나 나중에 라디오와 텔레비전의 요구 사항을 충족시키기 위해 더 높은 품질의 다채널 오디오 표준을 얻을 수 있도록 정의되었습니다. 이 표준은 자연스럽게 MPEG- 1 과 호환되지 않으므로 MPEG-2AAC 라고 합니다. 즉, 표면적으로 AAC 를 만들고 재생하려면 MP3 와 완전히 다른 도구를 사용해야 합니다.

인적 자원 (부서)

유형: 오디오

제조업체: 필립스

필요한 대역폭: 8Kbps

특징: GSM 네트워크의 용량을 늘리는 것이 목적이지만 음성 품질을 손상시킬 수 있습니다. 인터넷 주파수가 부족하기 때문에 일부 대형 사업자들은 대도시 인구 밀집 지역에서 이런 방식을 개통하여 용량을 늘렸다.

장점: 시스템 용량이 큽니다.

단점: 음질이 나쁘다

응용 프로그램 영역: GSM

로열티 방법: 상황에 따라 부과

주: HR 반속도는 GSM 음성 인코딩 방법입니다.

사제

유형: 오디오

제조업체: 필립스

필요한 대역폭: 13Kbps

특징: GSM 휴대폰의 일반적인 통신 인코딩 방법으로 4. 1 좌우의 음성 통신 품질을 얻을 수 있습니다 (ITU 규정 음성 통신 품질 Qos 만점은 5 점).

장점: 음성 품질이 향상되었습니다.

단점: 시스템 용량 감소.

응용 프로그램 영역: GSM

로열티 방법: 상황에 따라 부과

참고: FR 전체 속도는 GSM 음성 코딩 방법입니다.

전자 고장 보고 (electronic failure report)

유형: 오디오

제조업체: 필립스

필요한 대역폭: 13Kbps

특징: 13Kbps 전체 속도를 기반으로 하는 GSM 휴대폰 음성 인코딩 및 전송에 사용할 수 있어 더욱 또렷한 음성 품질을 얻을 수 있습니다 (Qos4.7 에 가까움). 휴대폰은 네트워크 서비스 공급자와만 협력하여 이 네트워크 기능을 활성화할 수 있다.

장점: 음질이 좋아요.

단점: 네트워크 서비스 업체는 이 네트워크 기능을 개통하여 시스템 용량을 줄여야 합니다.

응용 프로그램 영역: GSM

로열티 방법: 상황에 따라 부과

참고: EFR 은 GSM 네트워크 음성 코딩 방법인 전체 속도를 향상시킵니다.

어댑티브 다중 속도

유형: 오디오

제조업체: 필립스

필요한 대역폭: 8Kbps(4.75 Kbps~ 12.2 Kbps)

특징: 음성은 무음을 대체하고, 소음을 부드럽게 하며, 간헐적인 전송을 지원하고, 음성을 동적으로 감지할 수 있습니다. 다양한 네트워크 조건에서 고품질의 음성 효과를 제공합니다.

장점: 음질이 우수하다.

단점:-

응용 프로그램 영역: GSM

로열티 방법: 상황에 따라 부과

참고: GSM-ASM 은 GPRS 및 W-CDMA 네트워크에 널리 사용되는 오디오 표준입니다. GSM-AMR 은 ETSI GSM06.90 사양에 정의되어 있으며, AMR 음성 인코딩은 GSM2+ 및 WCDMA 의 기본 인코딩 표준이며 3 세대 무선 통신 시스템의 음성 인코딩 표준입니다. GSM-AMR 표준은 ACELP (대수 인센티브 선형 예측) 인코딩을 기반으로 합니다. 광범위한 전송 조건에서 고품질의 음성 효과를 제공합니다.

EVRC (향상된 가변 속도 인코더)

유형: 오디오

제조업체: 미국 하이 패스 통신 회사 (하이 패스).

필요한 대역폭: 8Kbps 또는 13Kbps.

특징: 3 가지 비트율 (9.6 Kbps, 4.8 Kbps 및 1.2 Kbps), 소음 억제 및 메시지 필터링을 지원합니다. 다양한 네트워크 조건에서 고품질의 음성 효과를 제공합니다.

장점: 음질이 우수하다.

단점:-

응용 프로그램 영역: CDMA

로열티 방법: 상황에 따라 부과

참고: EVRC 코딩은 CDMA 네트워크에서 널리 사용됩니다. EVRC 표준은 TIA IS- 127 의 내용을 따릅니다. EVRC 인코딩은 RCELP (느슨한 코드 인센티브 선형 예측) 표준을 기반으로 합니다. 인코딩은 속도 1( 17 1 비트/그룹), 속도 1/2(80 비트/그룹) 또는 필요에 따라 0 비트/패킷도 생성할 수 있습니다.

하이 패스 코드 여기 선형 예측.

유형: 오디오

제조업체: 미국 하이 패스 통신 회사 (하이 패스).

필요한 대역폭: 8k 음성 코딩 알고리즘 (4/4.8/8/9.6Kbps 와 같은 고정 속도에서 작동하며 800Kbps~9600Kbps 사이의 가변 속도에서 작동합니다.).

특징: 적절한 임계값을 사용하여 원하는 속도를 결정합니다. QCELP 는 8k 음성 인코딩 알고리즘입니다 (8k 속도에서 13k 에 가까운 음성 압축 품질을 제공할 수 있음). 이것은 가변 속도 음성 코딩, 인간의 음성 특성에 기반한 최적화 기술입니다 (우리는 일상적인 의사 소통과 의사 소통에서 항상 일정한 방식으로 말하는 것은 아니라는 것을 이해할 수 있어야합니다, 간헐적이고 다른 오디오는 인간의 자연스러운 표현입니다).

장점: 음성이 또렷하고, 배경 소음이 적고, 시스템 용량이 크다.

단점: 자유롭지 않다

응용 프로그램 영역: CDMA

로열티법: 사용권에 연회비를 지불하다.

참고: QCELP, 즉 하이 패스 코드 인센티브 선형 예측 (하이 패스 인센티브 선형 예측 코드). American Gaotong Communications 의 특허 음성 코딩 알고리즘은 북미 2 세대 디지털 휴대폰 (CDMA) 의 음성 코딩 표준 (IS95) 입니다. 이 알고리즘은 4/4.8/8/9.6 kbit/s 의 고정 속도뿐만 아니라 800 bit/s 에서 9600 bit/s 사이의 가변 속도에서도 작동할 수 있습니다. QCELP 알고리즘은 지금까지 가장 효율적인 알고리즘으로 간주되며, 주요 특징 중 하나는 적절한 임계값을 사용하여 원하는 속도를 결정하는 것입니다. 임계값은 배경 소음 수준에 따라 변경되어 배경 소음이 억제되고 시끄러운 환경에서도 좋은 음성 품질을 얻을 수 있습니다. CDMA8Kbit/s 의 음성은 GSM 13mbit/s 의 음성과 유사합니다 ... CDMA 는 QCELP 인코딩과 같은 일련의 기술을 사용하여 음성이 선명하고 배경 소음이 적습니다. 그 성능은 다른 무선 이동 통신 시스템보다 월등히 우수하며, 음성 품질은 유선 전화와 견줄 만하다. 무선 복사가 매우 낮다.

이 기사는 다음과 같습니다: 나는 R&D 네트워크 (52RD.com)-R & D 베이스 캠프를 좋아합니다.

상세 소스:/blog/detail _ rd.blog _ zcy _ lhj _ 20876.html.