데이터 마이닝 과정에서 어떤 정보 이득의 대체 지표가 있는지, 관련 영어 논문을 찾아내는데, 나는 지니 지수만 찾아 나를 도왔다.

국제 권위 학술 기관 데이터 마이닝 (ICDM) /kloCART-0/2 2006 년 IEEE 국제회의에서 선정한 10 대 고전 데이터 마이닝 알고리즘: C4.5, K-means, SVM, prior, EM 의 PageRank, AdaBoost

선택한 알고리즘이 10 일 뿐만 아니라 18 을 선택한 알고리즘은 고전적인 알고리즘이라고 부를 수 있는 데이터 마이닝 영역을 내놓으려는 것일 뿐, 영향이 깊다.

C4.5

C4.5 알고리즘은 분류 결정 트리 알고리즘이자 기계 학습 알고리즘입니다. 핵심 알고리즘은 ID3 알고리즘입니다. C4.5 알고리즘은 ID3 알고리즘의 장점을 상속하며 ID3 알고리즘은 다음과 같이 향상되었습니다.

1) 정보 게인을 높이고, 편차 선택 속성 정보 게인 선택 속성의 부족을 극복하기 위해 속성을 선택합니다.

2) 트리 구조의 가지 치기;

3) 완료 과정에서 연속 속성의 이산화;

4) 데이터가 불완전합니다.

C4.5 알고리즘은 생성된 분류 규칙이 이해하기 쉽고 정확도가 높다는 장점이 있습니다. 단점은 트리 구조에서 데이터 세트를 순차적으로 스캔하고 정렬하여 알고리즘이 비효율적이라는 것입니다.

2. K- 평균 알고리즘

K-means 알고리즘 K-means 알고리즘은 k, k 로 나누어진 클러스터링 알고리즘입니다

지원 벡터 머신

SVM (support vector machine) 은 SV 시스템 (일반적으로 SVM 이라고 함) 의 약어입니다. 이것은 통계 분류와 회귀 분석에 광범위하게 적용되는 감독 학습 방법이다. 지원 벡터 머신을 고차원 공간에 매핑하여 이 공간에서 가장 큰 간격의 초평면을 만듭니다. 단일 데이터의 하이퍼평면 양쪽에 있는 서로 평행한 두 개의 하이퍼평면입니다. 두 평행 편경사 평면 간의 거리를 최대화하기 위해 편경사 평면을 분리합니다. 평행 하이퍼평면 간의 거리나 간격이 클수록 분류기의 총 오차가 작아진다고 가정합니다. 우수한 가이드 CJC· 버그' 패턴 인식 지원 벡터기 가이드'. 벤더발스와 바나드의 지원 벡터기를 비교했습니다.

Apriori 알고리즘

Apriori 알고리즘은 부울 연관 규칙 빈번 항목 집합을 마이닝하는 가장 영향력 있는 알고리즘으로, 그 핵심은 반복 알고리즘 집합의 2 단계 빈도를 기반으로 합니다. 상호 관계 규칙은 1 차원, 단일 및 부울 상호 관계 규칙으로 나뉩니다. 여기서 최소 지원보다 지지도가 큰 모든 프로젝트 세트를 빈도 설정으로 빈번 프로젝트 세트라고 합니다.

최대 기대 (EM) 알고리즘은 통계 계산의 최대 기대 (EM) 알고리즘에서 가장 큰 매개변수 기대치를 찾습니다. 기계 학습 및 컴퓨터 시각 데이터 수집 영역 (데이터 클러스터 모델의 확률 (probability) 유사 추정 알고리즘에 자주 사용됩니다. 여기서 확률 모델은 관찰 불가능한 숨겨진 변수 (latent varia) 에 따라 달라집니다 ) 을 참조하십시오

6. PageRank of

구글의 PageRank 알고리즘은 2006 년 9 월 미국 특허 5438+0 을 획득했습니다. 이 특허는 구글 창업자 래리 페이지 (Larry Page) 의 것이다. PageRank 와 years 는 페이지가 아니라 이 레벨의 이름을 따서 명명되었습니다.

PageRank 는 한 사이트의 수와 품질, 내부 및 외부 링크를 기준으로 한 사이트의 가치를 측정합니다. PageRank 뒤의 개념은 각 링크 페이지가 투표 페이지라는 것이다. 링크와 투표는' 링크 유행도' 라고 불리는 다른 사이트를 의미한다. 얼마나 많은 사람들이 그들의 사이트에 링크하고 싶어하는지, 당신의 사이트에 얼마나 많은 사람들이 링크하고 있는지를 측정한다. (윌리엄 셰익스피어, 링크, 링크, 링크, 링크, 링크, 링크, 링크) 학술논문에서 종종 PageRank 라는 인용된 개념, 즉 다른 좀 더 일반적인 권위 있는 판단을 인용한다.

7 AdaBoost

Adaboost 는 서로 다른 분류자 (약한 분류자) 가 동일한 교육 세트를 가지고 있으며 이러한 약한 분류자 * * * 가 함께 더 강력한 최종 분류자 (강한 분류자) 를 형성하는 반복 알고리즘입니다. 알고리즘 자체는 데이터 분포를 변경하여 수정하며, 각 샘플의 가중치는 각 교육 세트의 각 샘플의 분류 상황과 최종 총 분류 정확도에 따라 결정됩니다. 새 데이터 세트의 가중치는 하위 분류자에 대한 교육을 받고 각 교육의 최종 분류는 최종 결정 분류로 통합됩니다.

KNN: K 최근 접 분류

K 이웃 (KNN) 분류 알고리즘은 이론적으로 비교적 성숙한 방법이자 기계 학습 알고리즘 중 가장 간단한 사상입니까? 방법은 다음과 같습니다. 피쳐 공간에서 K 와 가장 유사한 샘플 (즉, 피쳐 공간에서 가장 가까운 대부분의 샘플) 이 범주에 속할 경우 해당 샘플도 해당 범주에 속합니다. BR p>9. 소박한 베네치아

많은 분류 모델 중 가장 일반적으로 사용되는 두 가지 분류 모델은 의사 결정 트리 모델 (decision tree model) 과 Na 입니까? 베네치아 분류 모델 (NBC) 소박한 베네치아 모델은 고전적인 수학 이론에서 유래한 것으로, 견고한 수학 기초와 안정적인 분류 효율을 갖추고 있다. 동시에, NBC 모델을 추정하는 데 필요한 매개변수는 매우 적고, 누락된 데이터는 민감하지 않으며, 알고리즘은 비교적 간단하다. 이론적으로 NBC 모델의 오류율은 다른 분류 방법에 비해 가장 낮습니다. 하지만 실제로는 항상 그렇지는 않습니다. NBC 모델의 가정은 서로 독립적이기 때문입니다. 실제 응용에서는 이러한 가정이 종종 타당하지 않고 NBC 모델의 올바른 분류에 영향을 미치기 때문입니다. NBC 모델의 분류는 의사 결정 트리 모델이 속성 수나 속성 간의 연관성이 높을 때의 효율성을 비교합니다. 부동산 관련 감소, NBC 모델이 가장 유리합니다.

10 입니다. Car: 분류 및 회귀 트리

자동차, 분류 및 회귀 나무. 분류나무 아래에는 두 가지 중요한 생각이 있다. 첫 번째 생각은? 독립 변수의 재귀 분할 공간; 두 번째 아이디어는 데이터를 자르고 검증하는 것입니다.