현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 데이터 마이닝의 상위 10가지 기본 알고리즘이 마침내 명확하게 설명되었습니다. 자신만의 알고리즘을 개선하고 싶다면 서둘러서 수집하세요.
데이터 마이닝의 상위 10가지 기본 알고리즘이 마침내 명확하게 설명되었습니다. 자신만의 알고리즘을 개선하고 싶다면 서둘러서 수집하세요.

훌륭한 데이터 분석가는 기본 통계, 데이터 분석 사고, 데이터 분석 도구를 익히는 것 외에도 귀중한 데이터를 마이닝하는 데 도움이 되는 기본 데이터 마이닝 아이디어도 마스터해야 합니다. 이것이 데이터 분석의 차이점이기도 합니다. 전문가 및 일반 데이터 분석가.

권위 있는 국제학술단체인 IEEE ICDM(International Conference on Data Mining)은 데이터마이닝 분야의 고전 알고리즘 상위 10개(C4.5, k-Means, SVM, Apriori, EM)를 선정했습니다. , PageRank, AdaBoost, kNN, Naive Bayes, CART.

선정된 상위 10개 알고리즘뿐만 아니라 선정에 참여한 18개 알고리즘도 사실상 어느 하나를 ''이라 부를 수 있다. 고전적인 알고리즘은 데이터 마이닝 분야에 큰 영향을 미쳤습니다. 오늘은 주로 고전적인 알고리즘 10개를 공유하겠습니다. 내용이 비교적 건조하므로 나중에 공부할 수 있도록 저장해 두는 것이 좋습니다.

1. C4.5

C4.5 알고리즘은 머신러닝 알고리즘 중 분류 결정 트리 알고리즘으로, 핵심 알고리즘은 ID3 알고리즘입니다. 알고리즘의 장점과, ID3 알고리즘은 다음과 같은 측면에서 개선되었습니다.

1) 정보 획득률을 사용하여 속성을 선택하면 더 많은 값을 갖는 속성을 선택하는 단점을 극복합니다. /p>

2) 트리 구성 과정 중 가지치기

3) 연속 속성의 이산화를 완료할 수 있습니다.

4) 데이터를 완료할 수 있습니다.

C4.5 알고리즘에는 다음과 같은 장점이 있습니다. 생성된 분류 규칙은 이해하기 쉽고 정확도가 높습니다. 단점은 트리를 구성하는 과정에서 데이터 세트를 여러 번 순차적으로 스캔하고 정렬해야 하므로 알고리즘의 비효율성을 초래한다는 것입니다(상대 CART 알고리즘은 데이터 세트를 두 번만 스캔하면 됩니다. 다음은 의사결정 트리의 장점과 단점만 설명합니다.

2. k-평균 알고리즘은 K-평균 알고리즘입니다.

k-평균 알고리즘은 n개 객체를 해당 속성에 따라 k개 세그먼트로 나누는 클러스터링 알고리즘입니다. ; N. 이는 둘 다 데이터에서 자연 군집의 중심을 찾으려고 한다는 점에서 혼합 정규 분포를 다루는 기대 최대화 알고리즘과 유사합니다. 객체 속성이 공간 벡터에서 나온다고 가정하고 목표는 각 그룹 내 평균 제곱 오류의 합을 최소화하는 것입니다.

3. 서포트 벡터 머신(Support Vector Machine)

서포트 벡터 머신(Support Vector Machine), 영어는 Support Vector Machine으로 SV 머신(일반적으로 논문에서는 SVM이라고 함)이라고 합니다. 통계적 분류와 회귀분석에 널리 사용되는 지도학습 방법이다. 지원 벡터 머신은 벡터를 최대 마진 초평면이 설정되는 고차원 공간으로 매핑합니다. 데이터를 분리하는 초평면의 양쪽에 두 개의 평행 초평면이 구축됩니다. 분리 초평면은 두 평행 초평면 사이의 거리를 최대화합니다. 평행한 초평면 사이의 거리나 간격이 클수록 분류기의 전체 오류가 작아지는 것으로 가정됩니다. 훌륭한 가이드는 C.J.C Burges의 패턴 인식을 위한 벡터 머신 지원 가이드입니다. van der Walt와 Barnard는 지원 벡터 머신을 다른 분류기와 비교했습니다.

4. Apriori 알고리즘

Apriori 알고리즘은 부울 연관 규칙의 빈발 항목 집합을 마이닝하는 데 가장 영향력 있는 알고리즘입니다. 그 핵심은 2단계 주파수 설정 아이디어를 기반으로 한 재귀 알고리즘입니다. 이 연관 규칙은 1차원, 단일 수준, 부울 연관 규칙으로 분류됩니다. 여기서 최소 지지도보다 지지도가 큰 모든 항목 집합을 빈발 항목 집합, 줄여서 빈발 항목 집합이라고 합니다.

5. 최대 기대(EM) 알고리즘

통계 컴퓨팅에서 최대 기대(EM, Expectation–Maximization) 알고리즘은 확률 모델에서 매개변수의 최대 가능성을 찾는 것입니다. 확률 모델이 관찰할 수 없는 잠재 변수(잠재 변수)에 의존하는 추정 알고리즘입니다. 최대 기대치는 기계 학습 및 컴퓨터 비전의 데이터 클러스터링 분야에서 자주 사용됩니다.

6. PageRank

PageRank는 Google 알고리즘의 중요한 부분입니다. 2001년 9월 미국 특허를 취득했으며, 특허권자는 구글 창업자 중 한 명인 래리 페이지이다. 따라서 PageRank의 페이지는 웹페이지를 의미하는 것이 아니라 Page를 의미합니다. 즉, 이 순위 방식은 Page의 이름을 따서 명명되었습니다.

PageRank는 외부 링크와 내부 링크의 수량과 품질을 기준으로 웹사이트의 가치를 측정합니다. PageRank의 기본 개념은 페이지에 대한 각 링크가 해당 페이지에 대한 투표이며 링크가 많을수록 다른 사이트에서 더 많은 투표를 받는다는 것입니다. 이를 "링크 인기도"라고 합니다. 이는 얼마나 많은 사람들이 자신의 웹사이트를 귀하의 웹사이트에 기꺼이 연결하는지를 측정하는 것입니다. 페이지랭크(PageRank)의 개념은 논문이 학계에서 인용 빈도가 높다는 데서 유래합니다. 즉, 다른 사람이 많이 인용할수록 일반적으로 논문의 권위가 높아진다고 판단됩니다.

7. AdaBoost

Adaboost의 핵심 아이디어는 동일한 훈련 세트에 대해 서로 다른 분류기(약한 분류기)를 훈련한 다음 이러한 약한 분류기를 사용하여 Together, 이들은 더 강력한 최종 분류기(강한 분류기)를 형성합니다. 알고리즘 자체는 데이터 분포를 변경하여 구현되며, 각 훈련 세트의 각 샘플 분류가 올바른지 여부와 마지막 전체 분류의 정확도를 기반으로 각 샘플의 가중치를 결정합니다. 수정된 가중치를 가진 새로운 데이터 세트는 훈련을 위해 하위 분류기로 보내지고, 마지막으로 각 훈련에서 얻은 분류기가 최종적으로 융합되어 최종 결정 분류기가 됩니다.

8. kNN: k-최근접 이웃 분류

K-Nearest Neighbor(KNN) 분류 알고리즘은 이론적으로 성숙한 방법이자 기계 학습 알고리즘 중 가장 간단한 것입니다. 이 방법의 아이디어는: 샘플이 특징 공간에서 가장 유사한(즉, 특징 공간에서 가장 가까운) k개의 샘플 중 특정 범주에 속하면 샘플도 이 범주에 속한다는 것입니다.

9. Naive Bayes

많은 분류 모델 중에서 가장 널리 사용되는 두 가지 분류 모델은 의사결정 트리 모델과 Naive Bayes 모델(NBC)입니다. Naive Bayes 모델은 고전 수학 이론에서 유래되었으며 탄탄한 수학적 기초와 안정적인 분류 효율성을 갖추고 있습니다.

동시에 NBC 모델은 추정 매개변수가 거의 필요하지 않고 누락된 데이터에 크게 민감하지 않으며 비교적 간단한 알고리즘을 가지고 있습니다. 이론적으로 NBC 모델은 다른 분류 방법에 비해 오류율이 가장 낮습니다. 그러나 실제로는 항상 그런 것은 아닙니다. 이는 NBC 모델이 속성이 서로 독립적이라고 가정하기 때문입니다. 이 가정은 NBC 모델의 올바른 분류에 특정 영향을 미치는 실제 응용 프로그램에서는 종종 사실이 아닙니다. 속성의 개수가 상대적으로 많거나 속성 간의 상관관계가 큰 경우에는 NBC 모델의 분류 효율성이 의사결정 트리 모델만큼 좋지 않습니다. 속성 상관 관계가 작을 때 NBC 모델이 가장 잘 수행됩니다.

10. CART: 분류 및 회귀 트리

CART, 분류 및 회귀 트리. 분류 트리에는 두 가지 핵심 아이디어가 있습니다.

첫 번째는 독립변수 공간을 재귀적으로 분할하는 아이디어(바이너리 분할 방식)이고, 두 번째 아이디어는 검증 데이터를 가지치기(pre-pruning, post-pruning)에 활용하는 것이다. 회귀트리를 기반으로 모델 트리를 구성하는 난이도가 높아졌지만, 동시에 분류 효과도 향상되었습니다.

참고 도서: "실제 기계 학습"