최근 몇 년 동안, 과학기술 거물과 창업회사는 잇달아 자원과 비용을 투자하여 상업화 탐구를 진행하였다. 하지만 자연어 처리는 음성과 기계 번역을 제외하고는 여러 방면에서 큰 진전이 없었다. 예를 들어 문장 인식은 주로 한 문장에서 동사, 명사, 형용사를 식별하는 것을 포함한다. 이것들은 매우 간단하고 기초적인 임무이다. 하지만 2009 년부터 20 17 년까지 정확도는 1% 미만으로 57% 에 불과했다. 자연어 처리는 이미 인공지능의 인기 있는 하위 산업이 되었지만, 이 기술 자체는 여전히 충분한 성장 공간을 가지고 있으며, 여전히 초기 단계에 있다.
이를 바탕으로 국가 지식재산권국 특허 분석 보급 프로젝트 인공지능 핵심 기술 연구팀이 전문 기술과 일반 기술에서 특허 기술 발전 경로와 주요 신청자를 중심으로 자연어 처리업계에 대한 심층 분석을 실시하여 업계 참고용으로 제공하고 있다.
심화 학습은 자연어 처리 특허 출원의 급속한 성장을 촉진한다.
자연어 처리 특허 출원 동향 및 기술 진화 경로
자연어 처리 기술은 1970 부터 1985 까지 매년 최대 30 개 이하의 신청을 합니다.
1985 이후 네트워크 기술 및 컴퓨터 기술이 발달하면서 풍부한 코퍼스가 현실화되고 하드웨어가 지속적으로 업데이트되고 개선되며 자연어 자연어 처리 추세가 이성주의에서 경험주의로 바뀌면서 통계 기반 접근 방식이 점차 규칙 기반 접근 방식을 대체했습니다. 신청 건수가 급속히 증가하기 시작했고, 2000 년까지 연간 신청 건수는 780 개에 달했다. Jarinik 과 그의 IBM Watson Laboratory 는 이러한 변화를 추진하는 열쇠입니다. 그들은 통계 기반 방법을 사용하여 음성 인식률을 70% 에서 90% 로 높였다. 이 단계에서 수학 모델과 통계를 기반으로 한 자연어 처리 방법은 실질적인 돌파구를 만들어 실험실에서 실제 응용으로 옮겨갔다.
2008 년부터 지금까지 이미지 인식, 음성 인식 등 분야 성과에 영감을 받아 사람들은 점차 심도 있는 학습을 도입하여 자연어 처리 연구를 하기 시작했다. 최초의 단어 벡터부터 20 13 의 word2vec 에 이르기까지 심도 있는 학습과 자연어 처리의 결합이 절정에 이르렀고 기계 번역, 문답 시스템, 독해력 등에서 어느 정도 성공을 거두었다. 연간 신청량은 2008 년 1258 에서 나왔다. 심화 학습은 입력층부터 비선형 변화를 거쳐 출력을 얻고, 입력에서 출력으로 엔드 투 엔드 훈련을 하는 다층 신경 네트워크입니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 공부명언) 출력 쌍에 대한 데이터를 준비하고, 신경망을 설계하고 훈련시킨 다음, 원하는 작업을 수행합니다. RNN 은 자연어 간호에서 가장 많이 사용되는 방법 중 하나였으며, GRU, LSTM 등 모델은 연이은 열풍을 불러일으켰다. 이 때문에 2009 년 이후 자연어 처리 관련 특허 출원이 새로운 성장을 맞았다.
중국과 미국은 이 분야에서 가장 경쟁력 있는 나라다
출처국으로 볼 때 중국과 미국은 이 분야에서 특허 수가 가장 많은 나라로 주요 기술 비축국과 출처국이다.
중국과 미국의 특허 출원 동향
이 분야에서는 중미 양국의 신청 추세를 보면 양국의 특허 출원량이 안정적으로 증가하는 추세를 보이고 있어 양국이 자연어 처리 기술에 대한 연구개발과 특허 비축이 상대적으로 중시되고 있음을 보여준다. 전반적으로, 초기 중국과 미국은 어느 정도 차이가 있었지만, 장기 축적을 통해 중국은 20 12 년 동안 미국을 제치고 세계 특허 출원량이 가장 높은 국가로 526 건에 달했다. 그런 다음 격차가 더욱 커졌습니다. 20 1668, 중국은 1668 에 달하며 미국 856 의 두 배이다. 중국은 이미 미국을 제치고 전 세계에서 연간 신청량이 가장 많은 국가가 되었으며, 앞으로 몇 년 동안 전 세계에서 특허 비축량이 가장 많은 국가가 될 가능성이 높다.
바이두는 세계 톱 10 에 들어갔다.
우리 나라 혁신 주체 특허 비축이 강화되어야 한다.
주요 신청자 특허 출원의 글로벌 순위
IBM 은 전 세계 주요 지원자 순위에서 신청 건수에 큰 우위를 점하고 있으며, 제 1 진영에 속한다. IBM 에 비해 Microsoft 의 응용량은 400 미만이며 IBM 의 4/5 로 제 2 진영에 속한다. 3 위를 차지한 NTT 통신은 10 위 폭스콘 300 편 미만이며 3 진영에 속한다. 중국에서는 바이두가 8 위에 올랐고, 457 개의 앱이 있습니다. 중국 대만성의 폭스콘 역시 세계 10 위권에 진입했다. 우리 나라 혁신 주체 특허 비축이 강화되어야 한다.
기술 반복의 가속화는 자연어 처리 기술의 빠른 발전을 촉진시켰다
(1) 심화 학습은 품사성 표기 기술의 빠른 발전을 촉진한다.
품사성 표기는 자연언어의 모든 단어에 품사성 라벨을 붙이는 것이다. 정확한 품사성 표기는 자연어 처리의 기본 단계이며, 잘못된 품사성 판단은 전체 문장에 대한 잘못된 이해를 초래할 수 있다.
품사 태깅 기술 개발 경로
기술 발전 노선에서 볼 때 1980 이전의 품사 표기 특허 출원은 매우 적다. 1980 에서 1990 까지 규칙 기반 품사 표기 방법이 등장했는데, 이는 사람들이 제시한 비교적 오래된 방법이다. 규칙 기반 기본 아이디어는 치수 규칙 세트를 작성하고 치수 규칙 세트를 가능한 정확하게 만든 다음 치수 규칙 세트를 사용하여 치수 어료에 치수를 기입하여 정확한 치수 결과를 얻는 것입니다. 규칙 기반 품사성 표기의 단점은 타깃이 너무 강해서 진일보 업그레이드하기 어렵고 실제 데이터에 맞게 조정하기가 어려워 실제 사용에는 좋지 않다는 것이다.
1990 이후 숨겨진 마르코프, 조건부 랜덤 필드 등의 모델을 품사 치수에 적용하는 통계 기반 품사 태깅 기술이 개발되었습니다. 모든 지식은 코퍼스의 매개변수 훈련을 통해 자동으로 얻어지며 일관성과 적용 범위가 우수합니다. 따라서 통계에 기반한 품사 태깅 방법이 널리 사용되고 있다. 그러나 통계 기반 접근법에도 단점과 한계가 있다. 예를 들어, 모형 매개변수를 작성할 때 많은 양의 훈련 어재가 필요하며, 훈련 어료의 선택은 정확도에 영향을 줄 수 있습니다.
규칙 기반 방법과 통계 기반 방법 모두 일부 문제를 만족스럽게 처리할 수 없기 때문에, 규칙과 통계의 결합을 기반으로 한 품사성 표기법이 제시되었으며, 주로 사전과 통계 모델을 결합했다. 이런 조합식 품사성 표기 방법은 단일 방법이 치수 결과에 미치는 영향을 크게 보완하고 규칙 기반 방법과 통계 기반 방법의 장점을 충분히 발휘했다. 사실, 두 가지 방법의 결합은 이성주의와 경험주의의 결합이다.
최근 몇 년 동안 인공지능에 기반한 방법도 품사성 표기에도 적용되었다. 이 방법은 처음 세 가지 방법에 비해 적응성이 강하고 정확도가 높다는 장점이 있습니다. 중국에서 온 지원자들은 이와 관련하여 대량의 연구를 했고, 그들의 기술은 폭발적이었고, 그들은 일련의 연구 성과를 거두었다.
(2) 감독되지 않은 학습은 단어급 의미의 주요 발전 방향이며, 혁신주체가 가속화되어 배치가 각기 다르다.
의미 분석의 목표는 효과적인 모델과 시스템을 구축하여 다양한 언어 단위 (단어, 문장, 장 포함) 의 자동 의미 분석을 실현하여 전체 텍스트의 실제 의미를 이해하는 것입니다. 어휘 의미 분석의 중점은 어떻게 단어의 의미를 얻거나 구분할 것인가이다.
단어 의미 분석에 직면 한 특허 기술 개발 경로
단어 수준의 의미 론적 분석에는 여러 가지 방법이 있습니다. 발전의 관점에서 볼 때 사전 의미, 문법 구조, 이중 언어 사전 및 Yarowsky 알고리즘은 사전 기반 의미 분석에서 새로운 중요한 특허 신청을 더 이상 생성하지 않습니다. 사례 및 통계 모델을 기반으로 한 중요한 특허 출원은 거의 없습니다. 키워드 추출 기술의 발전으로 의미사전을 기반으로 한 관련 기술은 여전히 20 17 에서 관련 핵심 특허를 발생시켰으며, 이는 향후 발전의 중점 중 하나가 될 것이다. 한편, 감독되지 않은 학습을 바탕으로 빅 데이터, 알고리즘 및 칩 기술에 따라 전용 코퍼스가 필요하지 않기 때문에 확장성이 뛰어나 미래의 주요 발전 방향이 될 것입니다.
중국의 중요한 의미 론적 응용 단어 분석
2065438+2008 년 8 월 현재 중국 신청자 중 3 건 이상의 특허 출원인을 보유한 신청자는 6 명, 그 중 질루공업대학 1 위, 쿤밍공대 바이두, 텐센트, 후지통, IBM 이 뒤를 이었다. 중국에 있는 외국 지원자의 경우 IBM 은 1999 에서 이중 사전 기반 모호성 제거 특허 신청을 시작한 후 각각 20 1 14 에서 컨텍스트 이니셜 약어와 단어 패키지를 기반으로 특허 신청을 제출했습니다. 후지쯔는 20 12 년 최초의 이중 언어 모호성 제거 기술 기반 특허 출원을 제출한 뒤 각각 20 12 년 및 20 16 년 동안 조합 확률과 단어 감소에 따른 특허 출원을 제출했다. 쿤밍공대는 2008 년 정보 베이시안 방법 개선에 기반한 모호성 제거 기술 특허 신청을 제출했다. 텐센트의 특허 출원은 단어의 유행도, 텍스트 기반 내용, 기초어 사전, 어구사전 등을 활용하는 데 중점을 두고 관련 특허 신청을 구축하는 사전을 제출한다. 바이두는 20 12 에서 첫 번째 특허 신청을 제출했다. 연구 방향에는 다세분성 사전 구축, 사용자 선택 사용, 모호한 단어 해체에 기반한 검색 등이 포함된다. 20 18, 바이두는 감독되지 않은 신경망을 기반으로 한 어급 의미분석 특허 신청을 제안했다.
초기에는 칭화대, 베이징대, 중과원 음향연구소, 하공대, 일본 전기 (중국), 구글 등 과학연구원과 기업들이 국내에서 관련 특허를 출원했다. 기술의 발전과 혁신학과에 대한 중시로 난징우편대학, 화동사범대, 폭스콘, 상하이 교통대학 등도 관련 분야에 대한 연구를 진행했다. 20 14 이후 쑤저우대, 난징대, 중산대 등 고교도 단어급 소멸 연구개발에 참여했다.
중국 지원자가 각 시기의 단어급 소멸 연구에 참여했지만 쿤밍공대를 제외한 초기 실력이 비교적 강한 중국 지원자는 관련 특허 신청을 계속 제출하지 않았다는 점은 주목할 만하다. 단어급 소멸 기술의 발전을 주도하는 감독되지 않은 소멸에서 바이두만이 관련 특허 신청을 제출했다.
(3) 신경망은 기계 번역 발전의 중점으로 IBM 이 많이 축적되어 바이두가 추격을 가속화하고 있다.
1940 년대와 1950 년대에 기계 번역과 관련된 기술은 이론 연구 단계에 있었고, 컴퓨터의 발명과 정보론의 연구는 기계 번역을 위한 이론적 토대를 마련했다. 이 기간 동안 관련 특허 출원은 제기되지 않았다.
기계 번역 시스템 산업 및 기술 개발
1960 년대부터 규칙 기반 기계 번역 시스템 시대로 접어들었다. 관련 특허가 산발적으로 등장하기 시작했는데, 그 중 IBM 은 컴퓨터 분야의 선구자로서 이 시기에 매우 중요한 역할을 하며 정규 기계 번역 시스템에 대한 기초 특허를 많이 축적했다. 게다가, 대학과 정부 연구기관은 이 시기의 중요한 구성 요소이다. Systran 시스템과 같은 기계 번역 제품은 대학 실험실에서 태어나 정부 프로젝트 협력을 통해 생존하고 발전할 수 있다.
1980 년부터 1990 년까지 기계 번역 시스템이 점차 성숙되어 시장에 진출했다. 이 기간 동안 특허 출원 건수가 폭발하기 시작했는데, 주로 기업에서 나왔다. 하지만 2 1 세기부터 이 분야에서 인터넷 회사의 장점이 드러났다. 인터넷 코퍼스와 알고리즘이 크게 축적됨에 따라 구글, 마이크로소프트, 바이두 등 인터넷 회사는 IBM, 도시바 등 베테랑 회사를 제치고 있으며, 특히 최근 몇 년간 심도 있는 학습으로 인한 기술 혁명에 따라 데이터 자원의 중요성이 크게 낮아졌다. 최근 몇 년 동안 혁명적인 기술은 모두 시스템 알고리즘 프레임워크의 혁신에서 비롯되었다.
미래를 전망하다
미국과 일본은 초기에 자연어 처리 분야에 많이 축적되었지만 중국은 최근 몇 년 동안 추격을 가속화했다. 중국은 이미 세계에서 특허 출원량이 가장 많은 국가가 되었으며, 특허 비축량은 세계 2 위이다. 미래의 경쟁은 주로 중국과 미국에서 전개될 것이다. 동시에 인공신경망과 자연어 처리의 결합으로 어휘 분석, 구문 분석, 의미 분석, 언어 모델, 지식지도 기술 등 통용 기술의 빠른 발전을 촉진하여 기계 번역, 자동다이제스트, 자동문답, 감정 분석 등 전용 기술의 착지를 가속화했다. 신경망을 기반으로 한 자연어 처리 기술의 연구 개발을 높이면 중국과 국내 혁신가들의 커브길에서 추월하고 인공지능 고지를 선점하는 데 도움이 된다.
윤qiliang 예 shengluo Qiang | 국가 지적 재산권국 특허 분석 보급 공학 인공 지능 핵심 기술 연구팀