성문 인식의 이론적 근거
각 사운드에는 서로 다른 사람의 목소리를 효과적으로 구분할 수 있는 독특한 특징이 있습니다.
이 특징은 주로 두 가지 요인에 의해 결정된다. 첫 번째는 인후, 비강, 구강을 포함한 성강의 크기입니다. 이들 기관의 모양, 크기 및 위치에 따라 성대 장력의 크기와 사운드 주파수의 범위가 결정됩니다. 지문처럼, 모든 사람의 목소리에는 고유한 특징이 있다. 두 번째 요인은 발성 기관의 조작 방식이며, 발성 기관 간의 상호 작용은 명확한 음성을 만들어 낸다. 사람들은 말을 배우는 과정에서 주변의 다른 사람들이 말하는 방식을 시뮬레이션하여 점차 자신의 성문 특징을 형성한다.
이론적으로 성문은 지문과 같고, 두 사람의 성문 특징이 같은 경우는 거의 없다.
작은 소리 패턴 인식 기술 분석
초뇌의 중소형 로봇이 가지고 있는 음향 인식 기술은 실제로 동적 사운드 실시간 감지 기술에 속하며 VAD, 소음 감소 및 반향 제거 (VAD 의 목적은 음성인지, 소음 감소 및 반향 제거는 환경 간섭을 제거하기 위한 것입니다.)
도전 장면은 합창단에서 특징적인 사람의 목소리를 찾는 것이라고 생각하는데, 음성 신호에서 화자와 관련된 정보를 추출하고 표현하는 방법, 비슷한 사람의 미묘한 차이를 구별하는 방법에 어려움이 있다. 일반적으로 음성의 화자 관련 특징 추출은 주로 그림과 같이 진행됩니다.
수집된 음성의 경우 먼저 효과적인 음성 감지 (VAD) 를 수행하고, 음성 수집의 유효하지 않은 부분을 제거한 다음 음향 특징을 추출합니다. 음성 신호는 점점 길어지는 단시간 비정상 신호이기 때문에 일반적으로 창을 추가하여 피쳐를 추출하여 프레임 단위로 피쳐를 얻습니다. 현재 일반적으로 사용되는 음향적 특징으로는 고전적인 멜 스펙트럼 계수 MFCC, 현재 인식 예측 계수 PLP, 현재 심도 학습을 기반으로 하는 fiery deep 기능이 있습니다. 음향적 특징을 얻은 후 화자 정보에 대한 추가 추출이다. 여기에 사용된 모델링 방법은 주로 ivector 알고리즘과 잔차 처리가 있는 심도 컨볼 루션 신경망 알고리즘을 사용합니다. 모델링 후 음성의 특징을 좀 더 심도 있게 표현하여 화자와 관련된 정보를 더 자세히 표현할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 언어명언) 최종 모델은 피쳐 추출 단계에서 얻은 피쳐를 화자의 특징을 표상할 수 있는 샘플로 더 변환할 수 있습니다.
이렇게 하면 특정 화자의 음성을 화자의 특징을 표상할 수 있는 모델로 완전히 변환할 수 있다. (실제 경기 중 2 1 개 합창단원이 노래를 부를 때, 우리는 이 2 1 개 합창단원의 노래 소리를 각각 모델로 공급하여 결국 이 합창단 멤버 정보를 대표할 수 있는 2 1 개 모델을 얻게 된다.
일치 단계를 식별하는 것은 비교적 이해하기 쉽다. 음성 수집을 테스트한 후 적절한 피쳐 추출 작업을 수행하고 템플릿 라이브러리의 모든 템플릿 샘플과 유사성 거리를 계산한 다음 가장 가까운 것을 최종 판단 결과로 선택합니다. 실제 경기에서는 세 번의 테스트에 해당한다. 각 테스트에서, 우리는 모델에 밀고 자의 코드 음성을 보내고, 특성을 추출 하 고, 2 1 모델과 비교 하 고, 가장 높은 점수는 기계가 가장 가능성이 있다고 생각 하는 밀고 자 이다. 전체 프로세스는 다음 그림과 같습니다.
이번 성문 인식의 난이도
아마도 가장 흥미로웠던 것은 가장 강한 인공지능의 보잘것없는 미소와 우리 작은 선수인 바우샤오의 3 가지 문제가 1 질문에만 해당된다는 것이다. 여러분께 영향을 미치는 요소들을 간단히 말씀드리겠습니다. 다음과 같습니다.
1, 소음 문제
2. 많은 사람들이 노래를 부릅니다
3. 소리의 기억을 잊다
4. 기능 마이그레이션
가장 큰 문제는 현장 소음과 음악 소음을 포함한 소음이 얼굴 인식보다 더 큰 영향을 미치고 (이전에는 가벼운 영향이 있었음), 음악 자체도 기계와 플레이어의 판단에 영향을 미친다는 것이다. 두 번째는 많은 사람들이 노래를 부르는 것이다. 성문 인식은 주로 스펙트럼 특징에 의존하는 것으로 알려져 있으며, 많은 사람들이 스펙트럼 앨리어싱 현상을 일으켜 특징을 분리하고 식별하기가 어렵다. 셋째, 주로 인간 플레이어에 미치는 영향입니다. 보통 사람들이 시계열을 기억하는 것이 공간 서열을 기억하는 것보다 더 어렵다. 특히 세 음순을 기억하는 것이 웨이 박사가 몇 번 더 듣고 싶어하는 이유다. 마지막으로 피쳐 전송을 말씀드리겠습니다. 도전은 기억으로 말하고 노래를 식별하는 것이다. 사람들이 말하고 노래하는 것은 종종 성문이 다르기 때문에 특징 전이 문제가 있다. 이는 우리 두 선수가 어느 정도 귀납적 추리 능력이 필요하다는 점이다.
이러한 네 가지 요인으로 인해 최종 결과가 그렇게 완벽하지는 않지만, 이러한 불완전함은 우리가 과거의 자아를 초월하여 기술적으로 진보할 수 있게 해 준다. (윌리엄 셰익스피어, 템페스트, 과학명언)