음성 인식을위한 개방형 개발 플랫폼은 무엇입니까?

음성 인식 개발 플랫폼은 다음과 같이 요약됩니다. (자세한 소개는 내 블로그: 몇 가지 일반적인 음성 상호 작용 플랫폼의 소개 및 비교를 참조하십시오.)

1. 상업용 음성 상호 작용 플랫폼

1) Microsoft 음성 API

Microsoft 의 음성 API (SAPI) 는 음성 인식 (SR) 및 음성 합성 (SS) 엔진을 포함한 응용 프로그래밍 인터페이스 (API) 로 Windows 에서 널리 사용되고 있습니다. 현재 Microsoft 는 SAPI 의 여러 버전 (최신 버전은 SAPI 5.4) 을 출시했으며, Speech SDK 의 개발 키트로 출시되거나 windows 운영 체제에 직접 포함되어 있습니다. SAPI 는 영어, 중국어, 일본어를 포함한 여러 언어의 인식과 읽기를 지원합니다.

2).IBM viaVoice

IBM 은 음성 인식 연구를 일찍 시작한 기관 중 하나입니다. 일찍이 1950 년대 말부터 IBM 은 음성 인식 연구를 시작했다. 컴퓨터는 특정 언어 패턴을 감지하고 사운드와 해당 문자 간의 통계적 상관 관계를 얻을 수 있도록 설계되었습니다. 1999 년 IBM 은 VoiceType 의 무료 버전을 발표했습니다. 2003 년 IBM 은 생존 능력에 따라 ScanSoft 에게 데스크톱 제품에 대한 독점적인 판매권을 부여했으며, 이후 ScanSoft 와 Nuance 가 합병되었습니다. 지금 생존능력은 이미 사람들의 시선에서 벗어나 미묘한 차이로 대체되었다.

3) 미묘한 차이

미국 매사추세츠주 버링턴에 본사를 둔 다국적 컴퓨터 소프트웨어 기술 회사인 Nuance Communication 은 음성 및 이미지 솔루션과 애플리케이션을 주로 제공합니다. 현재 업무는 서버와 임베디드 음성 인식, 전화 전향 시스템, 자동 전화 번호부 서비스 등에 집중되어 있다. 음성 인식 기술 외에도 Nuance 음성 기술에는 음성 합성, 음성 인식 등의 기술도 포함되어 있습니다. 세계 음성 기술 시장에서 음성 인식의 80% 이상이 Nuance 인식 엔진 기술을 채택하고 있으며, 그 이름 아래 1000 개 이상의 특허 기술을 보유하고 있습니다. 이 회사는 50 개 이상의 언어를 지원할 수 있는 음성 제품을 개발했으며 전 세계적으로 20 억 명이 넘는 사용자를 보유하고 있습니다. Nuance 의 음성 인식 서비스는 애플 아이폰 4S 의 시리 음성 인식에 적용된다.

4) 과대 뉴스

국내 최대 스마트 음성 기술 공급업체인 코다이는 스마트 음성 기술 분야에서 장기적인 연구와 축적을 통해 중국어 음성 합성, 음성 인식, 구어평가 등 기술 분야에서 국제 선두를 달리고 있습니다. 중국 음성기술 시장의 60% 이상을 점유하고, 음성합성제품 시장 점유율은 70% 이상에 이른다.

5) 기타

기타 영향력 있는 비즈니스 음성 상호 작용 플랫폼으로는 구글의 음성 검색, 바이두, 써우거우 음성 입력기 등이 있습니다.

오픈 소스 음성 상호 작용 플랫폼

1)CMU 스핑크스

CMU- 스핑크스 (스핑크스라고도 함) 는 카네기멜론 대학 (CMU) 에서 개발한 오픈 소스 음성 인식 시스템으로, 다양한 음성 인식기와 음향 모델 교육 도구가 포함되어 있습니다. 가장 초기의 Sphinx-I 는 이개복이 1987 쯤에 개발한 것으로 고정 HMM 모델 (256 크기의 코드북 3 개 포함) 을 사용했습니다. 최초의 고성능 연속 음성 인식 시스템 (자원 관리 데이터베이스의 정확도는 90%+) 이라고 합니다. 최신 Sphinx 음성 인식 시스템에는 다음과 같은 패키지가 포함되어 있습니다.

Pocketsphinx—c 로 작성된 식별자 라이브러리입니다.

Sphinx base—pocket sphinx 에 필요한 지원 라이브러리

Sphinx4—Java 로 작성된 조정 가능하고 수정 가능한 식별자

Cmuclmtk-언어 모델링 도구

Sphinxtrain--음향 모델 교육 도구

이러한 패키지의 실행 파일과 소스 코드는 SourceForge 에서 무료로 다운로드할 수 있습니다.

2)HTK

HTK 는 숨겨진 마르코프 모델 키트의 약어로 주로 음성 인식 연구에 사용됩니다. 그것은 원래 캠브리지대 공학과 기계지능연구소 (원음성 시각과 로봇팀) 가 1989 에서 개발한 것으로 CUED 의 큰 어휘 음성 인식 시스템을 구축하는 데 사용되었다. HTK 의 최신 버전은 2009 년 발표된 3.4. 1 버전입니다. HTK 의 구현 원리와 다양한 도구의 사용 방법은 HTK 의 설명서 HTK 북을 참조하십시오.

3) 줄리어스

Julius 는 연구원과 개발자를 위한 고성능 듀얼 채널 대용량 어휘 연속 음성 인식 (LVCSR) 오픈 소스 프로젝트입니다. 3-gram 과 문맥 인식 HMM 을 사용하여 현재 PC 에서 실시간 음성 인식을 실현할 수 있으며 단어 수는 60k 입니다.

4)RWTH ASR

도구 상자에는 Rwthahachen University 의 인간 언어 기술 및 패턴 인식 팀에서 개발한 자동 음성 인식 기술의 최신 알고리즘 구현이 포함되어 있습니다. RWTH ASR 도구 상자에는 음향 모델 구축, 분석기 등 중요한 부분, 스피커 적응 구성 요소, 스피커 적응 교육 구성 요소, 감독되지 않은 교육 구성 요소, 개인화된 교육 및 어근 처리 구성 요소가 포함되어 있습니다.

5) 기타

위에서 언급한 오픈 소스 도구상자는 주로 음성 인식에 사용되며, 다른 오픈 소스 음성 인식 프로젝트로는 칼디, 사이먼, iATROS-speech, SHoUT, 잔지바르 OpenIVR 등이 있습니다.