자연어 처리 -4. 코퍼스 및 언어 지식 기반

코퍼스는 언어 학습, 방언학, 언어 교육, 구문 의미, 음운학 연구 등 언어 연구에 광범위하게 사용된다.

(1) 컴퓨터의 급속한 발전

(2) 변환 생성 언어학의 코퍼스 언어학에 대한 비판이 항상 정확한 것은 아니며 (예: 컴퓨터 분석 코퍼스가 의사 기술이라고 비난하는 경우), 일부는 일방적이거나 심지어 잘못된 경우도 있습니다 (예: 코퍼스 데이터의 가치를 부정하는 경우).

두 가지 의미: 하나는 같은 언어의 코퍼스 중 비례를 가리킨다. 예를 들어, 국제 영어 코퍼스에는 영어 모국어 또는 공식 언어와 영국, 미국, 캐나다, 호주, 뉴질랜드 등 주요 언어를 사용하는 국가에서 20 개의 병렬 하위 코퍼스가 있습니다. 그 병렬성은 어료 선택의 시간, 개체, 비율, 텍스트 수, 텍스트 길이가 거의 동일하다는 것을 보여준다. 데이터베이스 구축의 목적은 다른 나라의 영어를 비교 연구하는 것이다.

또 다른 병렬 코퍼스는 기계 번역의 이중 언어 정렬 코퍼스와 같은 두 개 이상의 언어 간의 병렬 샘플링 및 처리입니다.

-응? 캐나다 의회 의사록 (e.html)

-응? 홍콩 특별 행정구 (http://catalog.ldc.upenn.edu/ldc2000t50) 입법 회의 회의록

-응? 홍콩 뉴스

-응? 홍콩 법률 (홍콩 법률)

8 년 동안 두 단계로 구성됩니다. 첫 번째 단계는 1996-2000 년이며, 주로 어휘 및 구문 분석 계층의 치수를 완성하여 PDT 1.0 버전을 형성합니다. 2 단계, 2000-2004 년, 주요 태그 트리 라이브러리 심층 구문 계층 정보, PDT 2.0 버전 형성.

Http://www.chineseldc.org (192). 168.88.2)