현재 위치 - 법률 상담 무료 플랫폼 - 컨설팅 회사 - Gensim 에 기반한 텍스트 유사성 계산
Gensim 에 기반한 텍스트 유사성 계산
Gensim 은 Python 의 자연어 처리 라이브러리입니다. 사용된 알고리즘 (예: TF-IDF ($ TERM 주파수-역문서 주파수), 잠재적 디리클레이 할당 (LDA),? 잠재적 의미 분석 (LSA) 또는 임의 투영 등 교육 코퍼스에서 같은 문서에 있는 단어의 통계 * * * 패턴을 검사하여 문서의 의미 구조를 찾은 다음 벡터 모드로 변환하여 추가로 처리합니다. 또한 Gensim 은 단어를 단어 벡터로 변환하는 word2vec 기능을 구현합니다.

코퍼스는 감독되지 않은 교육 텍스트 주제의 숨겨진 구조에 사용되는 원시 텍스트 세트입니다. 코퍼스의 추가 정보를 수동으로 표시할 필요가 없습니다. Gensim 에서 코퍼스는 일반적으로 목록과 같은 반복 객체입니다. 각 반복은 텍스트 객체를 표현하는 데 사용할 수 있는 스파스 벡터를 반환합니다.

벡터는 텍스트 피쳐 세트의 목록입니다. 이것은 Gensim 에서 텍스트의 내부 표현입니다.

사전은 모든 문서에 있는 모든 단어의 모음이며 각 단어가 나타나는 횟수 등의 정보를 기록합니다. -응?

모형은 추상적인 용어이다. 두 벡터 공간의 변환 (즉, 텍스트의 한 벡터 표현에서 다른 벡터 표현으로) 을 정의합니다.

하나의 실험을 통해 알 수 있습니다.

#-*-인코딩: UTF-8 -*-?

Gensim 에서 코퍼스 가져오기, 유사성, 모델

수입 제패

ClassGensimExp (객체):

Def__init__(self, documents, test_document, Type, feature_num, best_num):

Self.raw_documents = 문서

자체 테스트 문서 = 테스트 문서

자아. SimCalType = 유형

Self.num_features = feature_num

Self.num_best = 최적 수량

DefCalSim(self):

Corpora_documents = []

# 분사

For item _ textinself.raw _ documents:

Item _ seg = list (jieba.cut (item _ text))

Corpora_documents.append

# 사전 및 코퍼스 생성

사전 = 코퍼스. 사전 (코퍼스 _ 문서)

# 각 뉴스에 해당하는 활을 계산하십시오.

Corpus = [dictionary.doc2bow (text) for text incorporation _ documents] # 반복자

만약 자신이. Simcal type = =' similarity-tfi df-index':

# 통계 코퍼스의 각 기능에 대한 IDF 값?

Tfidf_model = 모델. TfidfModel (코퍼스)

코퍼스 _ tfi df = tfi df _ model[ 코퍼스]

자아. _ 유사성 = 유사성. 유사성 (자기). SimCalType, corpus_tfidf, \

Num_features=self.num_features, num_best=self.num_best)

Test _ cut _ raw = list (jieba.cut (self.test _ document))

Test _ corpus = dictionary.doc2bow (test _ cut _ raw)

# 잘 훈련된 모델에 따라 IF-IDF 값을 생성하고 유사성을 계산합니다.

자아. _ test _ corpus = tfidf _ model [test _ corpus]

Elifself. Simca ltype = =' similarity-LSI-index':

Lsi_model = 모형. LsiModel (코퍼스)

코퍼스 _ LSI = LSI _ model[ 코퍼스]

자아. _ 유사성 = 유사성. 유사성 (자기). SimCalType, corpus_lsi, \

Num_features=self.num_features, num_best=self.num_best)

Test _ cut _ raw = list (jieba.cut (self.test _ document))

Test _ corpus = dictionary.doc2bow (test _ cut _ raw)

자아. _ test _ corpus = LSI _ model [test _ corpus]

자아. 출력 인쇄 ()

DefPrint_Out(self):

String =' 가장 비슷한 재료는' 입니다

Fortplinrange(len(self). _ 유사성 [자기. _test_corpus]):

Iftpl! = len (자기. _ 유사성 [자기. _test_corpus])-1:

String = 문자열+str(self. _ 유사성 [자기. _test_corpus][tpl][0]) \

+'('+ str(self). _ 유사성 [자기. _test_corpus][tpl][ 1])+','

그렇지 않은 경우:

String = 문자열+str(self. _ 유사성 [자기. _test_corpus][tpl][0]) \

+'('+ str(self). _ 유사성 [자기. _test_corpus][tpl][ 1])+')'

인쇄 (문자열)

If__name__=='__main__':

Raw_documents = [

0 1 19, 중신그룹과 텐센트는 심시에서 전략적 프레임워크 협정에 서명하여 클라우드와 빅 데이터, 블록체인, 인공지능 등 기술 분야의 비즈니스 협력을 추진하고 실체산업의 디지털 변환 업그레이드의 길을 적극적으로 모색할 것이라고 발표했습니다. 그리고,

1 Pufa 은행 공고에 따르면 회사 청두지점은 신용업무 위반 등 위법행위로 은감회에 4 억 6200 만원의 벌금을 부과했고, 벌금액은 회사 20 17 년도 손익에 전액 부과되어 회사 업무 발전과 지속경영에 큰 악영향을 미치지 않았다. 그리고,

2 포발은행은 포발은행 청두지점 위반에 대해 4 억 6200 만 원의 처벌을 받았다. 포발은행 본사에서 포발은행이 청두지점 위반 대출 발행에 대해 매우 난감하다는 것을 알게 되었다. (윌리엄 셰익스피어, 푸발은행, 푸발은행, 푸발은행, 푸발은행, 푸발은행) 우리는 감독 부서의 조사를 단호히 지지하고 받아들이며, 동시에 이를 채찍질하고, 자체 관리를 강화하고, 엄한 통치를 견지하며, 시종 합법적인 규정 준수 경영을 미래의 업무 발전의 근본으로 삼을 것이다. (채읍)',

3. 수시 공고: 회사가 첫 공개 발행 전에 발행한 65,438+0,332,000 주는 6 월 24 일에 해금되어 회사 총 지분의 65,438+0% 를 차지한다. 해금일 실제 유통주 65,438+0,226,5438+0.50,000 주로 총 지분의 9.73% 를 차지한다. 이번 주식 제한 판매를 신청한 주주는 쑤저우 테스트기기 총공장과 종조안화, 오, 진영 등 자연인 주주 4 명이다. ",

보도에 따르면 보스턴 과학과 국약 지주의 한 자회사가 XIO 자회사 Lumenis 에 대한 입찰에 참여했다고 한다. 그리고,

5 쑤닝 상운답심교소 문의서: 2065438+2007 년 7 월, 쑤닝 금융연구원이 블록 체인 연구소를 공식 설립하여 블록 체인 기술 및 금융업계에서의 응용 연구를 실시했습니다. 블록 체인 기술을 이용하여 수닝킨프 업무 및 쑤닝 은행 업무에 기술 지원을 제공하기 위한 것입니다. 쑤닝 은행 블록 체인 국내 신용장 정보 전송 시스템은 연맹 체인 모델을 채택하여 연맹 은행 사이에서만 무료로 사용할 수 있으며, 대외적으로 직접 서비스를 제공하지 않는다. 이 시스템에는 직접 수입이 없다. 그리고,

마론 위생 공고에 따르면 회사 654.38+600 억 최초 공개 발행 제한 주식은 654.38 년 6 월 26 일 상장돼 654.38+07 명의 주주 (현직 이사, 감독자, 임원 장계봉 포함) 를 포함한다. 그리고,

항공우주공사는 7 일 회사 최초로 공식 발매된 3 억 2400 만 주식 유한주가 6 월 29 일 상장유통될 것이라고 발표했다. 관련 주주는 중국운송로켓 기술연구원, 우주투자지주유한공사, 베이징우주동력연구소, 베이징항공우주산업투자기금 (유한파트너) 및 전국사회보장기금이사회가 이적한 두 가구다. 그리고,

대천생태공고, 회사와 장쑤 대천설계원 유한회사로 구성된 연합체는 고순구 동댐진 EPC 총청부 프로젝트에 낙찰되어 약 654.38+0 억 4 천만 원을 투자할 것으로 예상된다. 이 프로젝트의 순조로운 시행은 회사의 올해 경영 실적에 긍정적인 영향을 미칠 것이다. 그리고,

9 1954 2 월 19 일 소련 최고 소비에트 국은' 형제 같은 우크라이나와 러시아 동맹 300 주년' 을 앞두고 결의안을 통과시켜 러시아 연방 크리미아 주를 우크라이나에 가입시켰다.

10 희우 주식 공고에 따르면 회사는 20 17 년 순이익이 지난해 같은 기간보다 약 4250 만원에서 5300 만원으로 약 80.49%- 100.37%, 전년도에 증가할 것으로 전망했다 현재 수입은 이전 기간보다 더 많이 증가하고, 영업 이익은 이전 기간보다 더 많이 증가합니다. 받은 정부 보조금, 재테크 수익 등 비반복 손익이 회사 순이익에 미치는 영향은 약 3200 만원이다. 그리고,

1 1 천산약기: 대주주 담보주식이 평창선 아래로 떨어졌다. 천산약기는 제 1 대주주, 실제 통제인 중 한 명인 류향화는 총 회사 14.83% 의 주식을 보유하고 있다고 발표했다. 현재 유향화 * * * 담보회사 13.78% 지분. 유향화는 국태군안증권에 담보한 2980 만 8000 주가 이미 평창선으로 떨어졌다. 이 회사는 현재 증권 및 선물사무감사위원회의 조사를 받고 있다. 관련 규정에 따르면 회사 대주주는 조사 기간 동안 감축해서는 안 된다 (지분 담보와 청산 포함). 이에 따라 이번 유향화 담보주식은 평창선으로 추락해 회사의 실제 통제권이 변하지 않을 것으로 보인다. 그리고,

12 천마정제: 자회사는 1 억원을 넘어 중과전자를 장악하여 공급망 관리 발전 전략을 확대할 계획이다. 그리고,

13 초화기술' 공고에 따르면 최근 지분 자회사인 벨신 직원 통지를 받아 벨신사가 최근 회장인 정장춘과 연락할 수 없다는 통보를 받았다. 지금까지 이 회사는 벨신 회장 정장춘과 연락을 취하지 못했다. 벨신의 주요 주주들과의 논의와 벨신 이사회의 비준을 거쳐 벨신의 기존 경영진으로 구성된 임시 실무팀이 벨신의 정상적인 생산 경영 질서를 유지할 것이다. 회사는 벨신을 전면적으로 조사하여 상장회사와 주주의 이익을 보호했다. ",

14 홍승기술공고에 따르면 회사는 20 17 년 매출 2 억 8 천만 원에서 2 억 9 천만 원으로 전년 동기 대비 20.65% ~ 24.96%, 지난해 같은 기간 이익 2 억 3200 만 원을 달성할 것으로 전망했다. 보고 기간 동안 회사는 비반복 손익이 순이익에 미치는 영향이 약 65,438+00 만원-65,438+03 만원이라고 예상했다 그리고,

15 서동광전공고에 따르면 지주주주 서동그룹 직원 성장계획이 회사 주식 매입을 완료했으며 총 구매1111901

] 을 참조하십시오

Obj1= gensimexp (raw _ documents,' 디지털 변환 업그레이드 경로',' similarity-tfidf-index', 600,' 칼심 (동음이의)

Obj2 = GensimExp(raw_documents,' 신용 업무 불법 처리',' similarity-tfidf-index', 600,3). 칼심 (동음이의)

Obj3 = GensimExp(raw_documents,' 현재 수익이 이전 기간보다 증가',' 유사성 -LSI-index', 400, 2). 칼심 (동음이의)

실험 결과:

코퍼스가 많지 않아 반환된 유사 텍스트의 수가 적지만 판단이 정확하다는 것을 알 수 있다. (PS: 분사하는 동안 비활성 단어가 처리되지 않음)

참조:

/gensim/tutorial.html