모바일 단말기에서 음성 SMS 의 오디오 형식 선택

1. 모바일 기본 오디오 지원

1..1Android 지원되는 미디어 형식

/가이드/주제/미디어/미디어 형식

형식 /codecencorderdecoderdetails 지원되는 파일 유형/컨테이너 형식

AAC LC? 모노/스테레오 /5.0/5. 1 콘텐츠를 지원하며 표준 샘플링 속도 범위는 8 ~ 48 kHz 입니다. -응? 3GPP (.3gp)

-응? MPEG-4 (.mp4, .m4a)

-응? ADTS 원시 AAC (. Aac, 안드로이드 3.1+에서 디코딩, 안드로이드 4.0+에서 인코딩, ADIF 지원 안 함)

-응? MPEG-TS (. Ts, 확인할 수 없음, 안드로이드 3.0 이상)

HE-AACv 1 (AAC+)?

(안드로이드 4. 1+)

-응?

HE-AACv2 (고급 AAC+)? 스테레오 /5.0/5. 1 콘텐츠를 지원하며 표준 샘플링 속도 범위는 8 ~ 48 kHz 입니다.

AAC ELD (향상된 짧은 대기 시간 AAC)?

(안드로이드 4. 1+)

-응?

(안드로이드 4. 1+)

모노/스테레오 콘텐츠를 지원하며 표준 샘플링 속도 범위는 16 ~ 48 kHz 입니다

AMR-NB? 4.75 ~ 12.2 kbps 샘플링 속도, 8kHz3GPP (.3gp)

AMR-WB? 9 16kHz3GPP (.3gp) 에서 샘플링된 6.60 kbit/s 에서 23.85 kbit/s 까지의 속도

프레이크.

(안드로이드 4. 1+)

-응?

(안드로이드 3. 1+)

모노/스테레오 (다채널 없음). 최대 48 kHz 의 샘플링 속도 (그러나 44. 1 kHz 로 출력되는 장치의 경우 48 에서 44. 1 kHz 까지 최대 44. 1 kHz 까지 샘플링 속도를 권장합니다 16 비트 추천; 24 비트는 디더링을 적용하지 않습니다. FLAC (. Flac 전용)

플루트? 미디 유형 0 과 1 입니다. DLS 버전 1 및 2. XMF 및 모바일 XMF. 벨소리 형식 RTTTL/RTX, OTA, iMelody 를 지원합니까? 0 과 1 (를 입력합니다. Mid,. Xmf,. Mxmf) 를 참조하십시오

-응? RTTTL/RTX (. Rtttl,. (RTX)

-응? 오타 (을) 치다. Ota) 를 참조하십시오

-응? IMelody (. Imy) 를 참조하십시오

MP3? 모노/스테레오 8-320Kbps 상수 (CBR) 또는 가변 비트율 (VBR)MP3 (.mp3)

Opus?

안드로이드 5.0 이상

마트로스카. Mkv)

PCM/WAVE?

(안드로이드 4. 1+)

-응? 8 비트 및 16 비트 선형 PCM (최대 하드웨어 제한 속도). 8000, 16000 및 44 100 Hz 에서 원본 PCM 레코드의 샘플링 속도. 파도 (를) 치다. Wav)

월비스. Ogg (. Ogg)

-응? 마트로스카. Mkv, 안드로이드 4.0+)

1.2 OS X 지원되는 오디오 파일 및 데이터 형식

/library/content/documentation/music audio/conceptual/coreaudio overview/supportedaudioformatsmacosx/

각 파일 형식에 허용되는 데이터 형식입니다.

파일 형식 데이터 형식

AAC (. Aac,. Adts)'aac'

Ac3 (.ac3) "AC-3"

AIFC (. Aif,. Aiff,. Aifc)BEI8, BEI 16, BEI24, BEI32, BEF32, BEF64,' ulaw',' alaw',' MAC3

AIFF (. Aiff) 베이 8, 베이/클록-0/6, 베이 24, 베이 32

Apple Core 오디오 형식 (. Caf)' MP3',' MAC3',' MAC6',' QDM2',' QDMC',' Qclp',' Qclq',' agsm' 입니다 BEI 16, BEI24, BEF32, BEF64, LEI 16, LEI24, LEI32, LEF32, LEF64, lef64

MPEG 레이어 3 (.mp3) ".mp3"

MPEG 4 오디오 (.mp4) "AAC"

MPEG 4 오디오 (.m4a)' AAC', alac'

다음/태양음 (. Snd, 입니다. Au)BEI8, BEI 16, BEI24, BEI32, BEF32, BEF64,' ulaw'

오디오 디자이너 2 급 (.sd2) Bei 8, BEI 16, BEI24, BEI32

파도 (를) 치다. Wav)LEUI8, LEI 16, LEI24, LEI32, LEF32, LEF64,' ulaw',' alaw'

Core Audio 에는 오디오 데이터와 선형 PCM 을 서로 변환하는 많은 오디오 코덱이 포함되어 있습니다. OS X v 10.4 는 다음과 같은 오디오 데이터 유형의 코덱을 제공합니다. 오디오 응용 프로그램에는 추가 인코더와 디코더가 설치될 수 있습니다.

오디오 데이터 유형은 선형 PCM 에서 인코딩됩니까? 선형 PCM 으로 디코딩합니까?

MPEG 레벨 3 ('.mp3') 아니오

Mace3:1("mac3") 예 예 예

MACE 6: 1 ('MAC6') 예 예 예

음악 디자인 2 ("qdm2") 예 예 예

Qdesign ("qdmc") noyes

Gaotong 순수 음성 회사 (Qclp) 예 예 예

하이 패스 QCELP ('qclq') 아니오

네, 그렇습니다

사과 무손실 ("alac") 예 예 예

애플 GSM10:1("agsm") 아니오

Alaw2:1"alaw") 예 예 예

애플 디지털 저작권 관리 오디오 디코더

AC-3 no

Dvi 4:1("DVI") 아니오

애플 ima4:1("ima4") 예 예 예

Lpc23:1("LPC") 예

마이크로소프트 ADPCMNoYes

DVI ADPCMYesYes

Gsm 6/kloc-직원 0/0 명

AMR 협 대역 ("samr") 예 예 예

-응? 법률 2:1("ulaw") 예 예 예

1.3 요약:

Android/ios 는 MP3 를 디코딩할 수 있지만 인코딩할 수는 없습니다. 인코딩은 lame 에 있습니다.

안드로이드/IOs 는 AAC 코덱을 지원합니다.

Mp3, AAC AAC 는 모두 음악 인코더입니다. Android 는 AMR 의 협대역 및 광대역 코덱을 지원하며, IOs 문서는 협대역 지원 코덱을 표시합니다. 그러나 IOS 버전 ios4.3.x 이후 AMR 이 더 이상 지원되지 않고 AMR 의 하드웨어 디코딩이 제외되었다고 말하는 사람들도 있습니다. Libopencore 라이브러리를 사용해야 하는 경우

결론:

H5 오디오 태그는 MP3 를 가장 잘 지원합니다 (오디오 태그는 Firefox 및 opera 를 제외한 MP3, ogg 및 wavFlash player 는 MP3, AAC, speex, nellymoser 를 지원할 수 있음). 순수한 웹과의 호환성을 고려하여 MP3 를 사용합니다

안드로이드 및 IOs 하드웨어는 AAC 를 가장 잘 지원합니다. 하드 코딩의 성능과 효율성을 고려하여 AAC 를 사용합니다.

Amr 은 음성 인코더입니다. 장면 사용을 고려하여 AMR 을 권장합니다.

위챗 비교, 위챗 짧은 음성, 6.0 이전 AMR, 6.0 이후 silk_v3.

2. 오디오의 기본 개념

2. 1 사운드의 세 가지 요소

사운드의 특성은 음량, 음조, 음색의 세 가지 요소로 설명할 수 있습니다.

음량: 사람의 귀에 대한 소리의 강도에 대한 주관적인 느낌을 음량이라고 합니다. 소리의 크기는 음파 진동의 폭과 관련이 있다. 일반적으로 음파의 진동 폭이 클수록 소리의 양이 커진다. 우리가 힘껏 북을 칠 때 고막이 크게 진동하여 큰 소리를 낸다. 드럼을 드럼할 때 고막의 진동 폭이 작고 소리가 약하다. 음차가 진동할 때 음파는 모노, 즉 하나의 주파수 성분만 있다. 음 포크의 진동 법칙을 기록해 보면 진동 파형이 사인파라는 것을 알 수 있다. 서로 다른 힘으로 음차를 두드리면 음차가 내는 음파 진폭이 다르기 때문에 소리의 음량이 다르다는 것을 의미한다. 두 개의 사운드 파형을 제공합니다. 하나는 진폭이 크고 하나는 진폭이 작습니다. 진폭이 큰 웨이브 형상의 크기는 크고 진폭이 작은 웨이브 형상의 크기는 작습니다. 또한 소리의 정도에 대한 인간의 인식도 음파의 빈도와 관련이 있다. 같은 강도의 음파 주파수가 다르면 사람의 귀가 느끼는 소리의 정도가 다르다.

음조: 사람의 귀가 소리의 높낮이에 대한 느낌을 음조라고 한다. 음조는 주로 음파의 주파수와 관련이 있다. 음파의 주파수가 높을수록 음조가 높아진다. 우리가 각각 작은 드럼과 큰 드럼을 두드릴 때, 그것들이 다른 소리를 내는 것을 느낄 수 있다. 드럼을 친 후 진동 주파수가 빠르고, 소리가 맑고, 즉 음조가 높다. 그러나 드럼의 진동 주파수는 느리고, 소리는 낮으며, 즉 음조는 낮다. 작은 튜닝 포크와 큰 튜닝 포크를 각각 두드리면 작은 튜닝 포크에서 나오는 사운드 톤이 높고 큰 튜닝 포크에서 나오는 사운드 톤이 낮다는 것을 느낄 수 있습니다. 만약 우리가 크기 포크에서 나오는 음파를 기록하려고 한다면, 작은 포크 단위의 시간 진동 횟수가 많다는 것을 알 수 있습니다. 즉, 주파수가 높고, 큰 포크 단위의 시간 진동 횟수가 적고, 즉 주파수가 낮다는 것을 알 수 있습니다. 두 가지 다른 주파수의 사운드 파형이 제공됩니다. 음향적으로 볼 때 주파수가 높은 사운드 파형은 높은 음높이, 주파수가 낮은 사운드 파형은 낮은 음높이로 들린다.

음색: 음색은 두 가지 음량과 음조가 같은 소리를 구분하는 특성이거나, 인간의 귀가 다양한 주파수와 강도의 음파에 대한 복합반응이다. 음색은 음파의 진동 파형 또는 소리의 스펙트럼 구조와 관련이 있다. 앞서 언급했듯이 튜닝 포크는 사인파인 단일 주파수의 음파를 생성할 수 있습니다. 하지만 사실, 자연계에서 듣는 대부분의 소리는 기파와 다양한 파동으로 구성된 매우 복잡한 파형을 가지고 있습니다. 화음의 수와 강약은 서로 다른 음색을 구성한다. 각종 발성물체가 같은 음조를 낼 때, 그것들의 기본 성분은 같다. 그러나 고조파의 수가 다르기 때문에 각 고조파의 폭이 다르기 때문에 생성되는 음색도 다르다. 예를 들어, 호금과 양금이 같은 곡조를 연주하는 것을 들을 때, 그들의 음조는 같지만, 우리는 서로 다른 악기의 소리를 구별할 수 있다. 각종 악기의 발음 재료와 구조가 다르기 때문이다. 그들이 같은 음조의 소리를 낼 때, 기파는 같지만, 고조파 성분이 다르기 때문에 생성되는 파형이 다르기 때문에 다른 음색을 만들어 낸다. 바이올린과 피아노의 파형과 소리를 주었다. 이 두 소리의 음량과 음조는 같지만, 듣기에는 다르다. 이 두 소리의 음색이 다르기 때문이다.

2.2 샘플링 속도 및 샘플링 규모

소리는 실제로 에너지 파동이기 때문에 주파수와 진폭의 특성도 가지고 있다. 빈도는 타임라인에 해당하고 진폭은 수평축에 해당합니다. 파도는 무한히 매끄럽고, 현은 무수한 점으로 이루어진 것으로 볼 수 있다. 저장 공간이 상대적으로 제한되어 있기 때문에 디지털 인코딩 중에 화음의 점을 샘플링해야 합니다. 샘플링 프로세스는 한 점의 빈도 값을 추출하는 것입니다. 분명히 1 초에 추출한 포인트 수가 많을수록 주파수 정보가 풍부해집니다. * * 웨이브 형상을 복원하려면 한 번의 진동에 두 개의 샘플링 점이 있어야 합니다. 사람의 귀가 느낄 수 있는 최대 주파수는 20kHz 입니다. 따라서 인간의 귀의 청각 요구 사항을 충족하려면 초당 최소 40k 회, 40kHz 로 표현해야 한다. 우리의 일반적인 CD, 샘플링 속도는 44. 1kHz 입니다. 주파수 정보만으로는 충분하지 않습니다. 또한 이 주파수의 에너지 값을 가져와서 신호 강도를 나타내기 위해 수량화해야 합니다. 정량화 수준은 2 의 정수 제곱이며, 우리의 일반적인 CD bit 16bit 샘플링 크기는 16 의 2 제곱입니다. 샘플링 규모는 추상적이기 때문에 샘플링 비율보다 이해하기 어렵다. 간단한 예를 들어 보겠습니다. 파동이 8 번 샘플링되고 샘플링 점의 에너지 값은 각각 A 1-A8 이지만 2 비트의 샘플 크기만 사용한다고 가정해 보겠습니다. 이렇게 하면 A 1-A8 에 있는 네 점의 값만 유지하고 나머지 네 개는 폐기할 수 있습니다. 만약 우리가 3 비트의 샘플링 크기를 취한다면, 우리는 정확히 8 점의 모든 정보를 기록할 것이다. 샘플 비율 및 샘플 크기 값이 클수록 기록된 웨이브 형상이 원래 신호에 더 가까워집니다.

2.3 손실 및 무손실

샘플링 속도와 샘플링 크기에 따라 오디오 인코딩은 자연 신호에 무한히 접근할 수 있으며, 적어도 현재 기술로는 그럴 수 있습니다. 자연 신호에 비해 어떤 디지털 오디오 인코딩 체계도 완전히 회복될 수 없기 때문에 해롭다. 컴퓨터 어플리케이션에서 펄스 코드 변조는 가장 높은 충실도를 달성할 수 있으며, 소재 보존과 음악 감상, CD, DVD 및 일반적인 WAV 파일에도 널리 사용됩니다. 따라서 PCM 관행은 무손실 인코딩이 됩니다. PCM 이 디지털 오디오에서 가장 좋은 충실도 수준을 나타낸다고 해서 PCM 이 신호의 절대 충실도를 보장할 수 있는 것은 아닙니다. PCM 은 무한한 근접성을 극대화할 수 있습니다. 우리는 습관적으로 MP3 를 손상된 오디오 코딩의 범주로 분류하는데, 상대적으로 맥코드 변조이다. 코드 상대성의 손실과 무손실 강조 목적은 진정한 무손실이 어렵다는 것을 알려주는 것이다. 숫자로 원주율을 나타내는 것처럼, 아무리 정확해도 무한한 근접일 뿐, 정말로 원주율과 같은 것은 아니다.

2.4 주파수와 샘플링 속도 사이의 관계

샘플링 속도는 초당 원시 신호가 샘플링되는 횟수를 나타냅니다. 우리가 자주 보는 오디오 파일의 샘플링 속도는 44. 1KHz 입니다. 그게 무슨 뜻이에요? 우리가 두 개의 사인파 신호, 20Hz 와 20KHz 를 가지고 있다고 가정해 봅시다. 각 신호의 길이는 1 초입니다. 각각 우리가 들을 수 있는 최소 주파수와 최대 주파수에 해당하는 40KHz 로 이 두 신호를 샘플링합니다. 어떤 결과를 얻을 수 있습니까? 그 결과 20Hz 신호는 진동당 40K/20=2000 회 샘플링되고 20K 신호는 진동당 두 번만 샘플링됩니다. 저주파 정보는 동일한 샘플링 속도에서 고주파 정보보다 훨씬 상세합니다. 이는 일부 오디오 매니아가 CD 의 디지털 사운드가 사실이 아니라고 비난하는 이유이기도 하다. CD 의 44. 1KHz 샘플링은 고주파 신호가 잘 기록된다고 보장할 수 없다. 고주파 신호를 더 잘 기록하기 위해서는 더 높은 샘플링 속도가 필요할 수 있으므로 일부 친구들은 CD 트랙을 캡처할 때 48KHz 샘플링 속도를 사용하는 것은 바람직하지 않습니다! 사실 이것은 음질에도 좋지 않다. 추적 소프트웨어의 경우 CD 에서 제공하는 44. 1KHz 와 동일한 샘플링 속도를 유지하는 것이 향상이 아니라 음질을 보장하는 가장 좋은 보증 중 하나입니다. 높은 샘플링 속도는 아날로그 신호와 관련된 경우에만 유용합니다. 샘플링 신호가 숫자인 경우 샘플링 속도를 높이려고 하지 마십시오.

해리 나이퀴스트 샘플링 정리: 연속적으로 변하는 신호 파형을 샘플링할 때 샘플링 속도 fs 가 신호에 포함된 최대 주파수의 두 배보다 높을 경우 원래 신호의 파형은 보간 기술을 통해 샘플링 값에 의해 올바르게 복구될 수 있습니다. 그렇지 않으면 스펙트럼 겹침이 발생하여 겹침 소음이 발생하고 겹치는 부분은 복구할 수 없습니다. (아날로그 비디오 신호 샘플링에도 동일하게 적용됩니다. ) 을 참조하십시오

사람 목소리의 특징에 따르면 사람의 청각 감지 범위는 20 Hz 에서 20Hz 까지입니다. 이 대역폭 범위는 협 대역, 광대역, 초 광대역 및 전체 밴드의 네 가지 대역폭 범주로 나뉩니다.

협 대역 일반 전화 커버리지의 대역폭은 300Hz ~ 3.4kHz, 해당 샘플링 속도는 6.8kHz, 일반 전화의 샘플링 속도는 8kHz, 해당 대역폭은 4kHz 로 사람 소리로 충분합니다.

광대역은 50Hz ~ 7 khz 의 대역폭을 가지고 있으며 14khz 의 샘플링 속도에 해당하므로 사람 소리를 잘 포착하고 복원할 수 있지만 음악 사운드에는 충분하지 않습니다. 이것이 바로 인성통화 장면에서 이른바 HD 음성이다.

초광대역은 50Hz 에서 14kHz 까지 이에 상응하는 샘플링 속도는 28kHz 로, 기본적으로 사람의 목소리와 음악을 덮을 수 있다. 비전문가 뮤지션에게 이 대역폭은 음성 통화나 음악 생중계에 충분하다.

전체 주파수 대역은 20Hz 에서 20kHz 까지 40kHz 의 샘플링 속도에 해당하며, 인간의 청각 범위를 완전히 포괄하여 음악 매니아나 전문 뮤지션의 요구를 충족시킬 수 있습니다. 40Hz 를 초과하는 모든 것을 전체 대역 음성이라고 할 수 있습니다. CD 샘플링 속도는 44. 1kHz 입니다.

따라서 좁은 밴드의 음질은 음성 녹음과 재생의 요구 사항을 충족시킬 수 있다.

오디오 코딩은 다음 네 가지 관점에서 측정됩니다.

비용: 개발 비용, 서버 트래픽 비용

음질:

시스템 영향: 소프트 코덱은 시스템 리소스의 임시 사용을 위해 하드 코덱보다 CPU 를 더 많이 사용합니다.

호환성: 모바일 및 네트워크 터미널과 호환됩니다.

제품 시나리오에 적합한 인코더에는 다음 네 가지 기능이 있습니다.

비트율은 비교적 낮고 비용 관리 요구 사항을 충족하며 일반적으로 16kbps 를 초과하지 않습니다. 샘플은 1bit 로 컴파일할 수 있으므로 8kHz 의 좁은 밴드는 8kbps 의 비트율에 해당하며 16kHz 의 광대역 대응 16kbps 의 비트율에 해당합니다. 비트율의 본질은 비용입니다.

알고리즘의 복잡성은 상대적으로 낮고 CPU, 메모리 및 전력 소비량이 적으며 시스템에 미치는 영향은 최소화됩니다.

음질을 적절히 희생하여 위의 세 가지 요소를 보장할 수 있다. 8kHz 의 샘플링 속도는 사람 소리 장면에 충분하며 16kHz 의 샘플링 속도는 HD 음성을 제공합니다.

호환성을 고려하다

주류 오디오 인코더

오디오 인코딩 형식 비교:/library/content/referencelibrary/gettingstarted/GS _ musicaudio/_ index.html.

2. opus IOs:/chrisballinger/opus-IOs

3. 안드로이드 opus:/axet/Android-opus

4. opus _ Android:/Louis yonge/opus _ Android

5. opus codec:/martoreto/opus codec

6. opencore AMR 을 사용하여 iOS 를 디코딩하는 방법에 대해 논의합니다:/library/archive/documentation/musicaudio/conceptual/coreaudio overview Coreaudioessentials.html #//apple _ ref/doc/uid/tp40003577-ko10-SW/klls