현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 어떤 큰 데이터 알고리즘을 파악해야 합니까?
어떤 큰 데이터 알고리즘을 파악해야 합니까?
상위 10 개 알고리즘뿐만 아니라 선정에 참여한 18 알고리즘도 고전 알고리즘이라고 할 수 있어 데이터 마이닝 분야에 큰 영향을 미쳤다.

1.C4.5

C4.5 알고리즘은 기계 학습 알고리즘의 분류 결정 트리 알고리즘이며 핵심 알고리즘은 ID3 알고리즘입니다. C4.5 알고리즘은 ID3 알고리즘의 장점을 계승하여 다음과 같은 측면에서 ID3 알고리즘을 개선했습니다.

1) 정보 게인으로 속성을 선택하면 정보 게인으로 속성을 선택할 때 값이 많은 속성을 선택하는 단점을 극복할 수 있습니다.

2) 나무 만드는 과정의 가지 치기;

3) 연속 속성의 이산화를 완료 할 수 있습니다.

4) 불완전한 데이터를 처리 할 수 ​​있습니다.

C4.5 알고리즘은 생성된 분류 규칙이 이해하기 쉽고 정확도가 높다는 장점이 있습니다. 단점은 트리를 구성하는 동안 데이터 세트를 여러 번 스캔하고 정렬해야 하므로 알고리즘이 비효율적이라는 것입니다.

2 k-means 알고리즘은 k-means 알고리즘입니다.

K-meansalgorithm 은 n 개의 객체를 속성에 따라 k 개의 파티션 k 3.Supportvectormachines 로 나누는 클러스터링 알고리즘입니다.

Svm (supportvectormachine) 영어는 지원 벡터 기계라고 합니다. 그것은 통계 분류와 회귀 분석에 광범위하게 적용되는 감독 학습 방법이다. 지원 벡터기는 벡터를 더 높은 차원의 공간에 매핑하여 이 공간에 가장 큰 간격의 초평면을 설정합니다. 데이터를 분리하는 하이퍼평면의 양쪽에는 두 개의 평행한 하이퍼평면이 있습니다. 편경사 평면을 분리하면 두 평행 편경사 평면 간의 거리가 극대화됩니다. 평행 하이퍼평면 간의 거리나 간격이 클수록 분류기의 총 오차가 작아진다고 가정합니다. 좋은 가이드는 C. j. CB pulses 의' 패턴 인식 지원 벡터기 안내서' 입니다. VanderWalt 와 Barnard 는 지원 벡터 머신과 다른 분류자를 비교했습니다.

4. 우선 순위 알고리즘

Apriori 알고리즘은 부울 연관 규칙 빈번 항목 집합을 마이닝하는 가장 영향력 있는 알고리즘입니다. 핵심은 2 단계 주파수 세트 사상을 기반으로 하는 재귀 알고리즘입니다. 이 상호 관계 규칙은 분류에서 단일 차원, 단일 레벨, 부울 상호 관계 규칙에 속합니다. 여기서 최소 지지도보다 큰 모든 항목 세트를 빈번 항목 세트 (주파수 세트라고 함) 라고 합니다.

5. 최대 기대 알고리즘

통계 계산에서 최대 기대 (EM) 알고리즘은 확률 모델에서 매개변수의 최대 우도 추정을 찾는 알고리즘입니다. 여기서 확률 모델은 관찰할 수 없는 잠재적 변수에 따라 달라집니다. 가장 큰 기대는 기계 학습 및 컴퓨터 시각에 일반적으로 사용되는 데이터 클러스터링 분야입니다.

6. 페이지 순위

PageRank 는 구글 알고리즘의 중요한 부분입니다. 200 1 9 월 구글 창업자 중 한 명인 래리 페이지 (LarryPage) 가 미국 특허를 수여했다. 그래서 PageRank 의 Page 는 웹 페이지가 아니라 page 를 의미합니다. 즉, 이 순위 방식은 page 로 명명됩니다.

PageRank 는 한 사이트의 외부 링크와 내부 링크의 수와 품질을 기준으로 이 사이트의 가치를 측정합니다. PageRank 뒤의 개념은 한 페이지의 모든 링크가 그 페이지에 대한 투표라는 것입니다. 더 많은 링크를 받을수록 다른 사이트에서 더 많은 투표를 받을 수 있다는 것입니다. 이것이 바로' 링크 유행' 이라고 불리는데, 얼마나 많은 사람들이 그들의 웹사이트를 당신의 웹사이트에 연결하고자 하는지를 측정하는 것이다. (알버트 아인슈타인, 자기관리명언) PageRank 의 개념은 한 논문이 학계에서 인용한 빈도에서 비롯된다. 즉, 다른 사람이 인용한 횟수가 많을수록 일반적으로 그 논문의 권위성이 높아진다는 것이다.

7.adaboost 알고리즘

Adaboost 는 동일한 교육 세트에 대해 서로 다른 분류자 (약한 분류자) 를 훈련시킨 다음 이러한 약한 분류자를 조립하여 더 강력한 최종 분류자 (강한 분류자) 를 형성하는 반복 알고리즘입니다. 알고리즘 자체는 데이터 분포를 변경하여 이루어집니다. 각 교육 세트의 각 샘플이 제대로 분류되었는지 여부 및 마지막 전체 분류의 정확성을 기준으로 각 샘플의 가중치를 결정합니다. 가중치가 수정된 새 데이터 세트를 교육을 위해 하위 분류기에 보내고, 마지막으로 각 훈련된 분류자를 최종 의사 결정 분류기로 통합합니다.

8.kNN:k 최근 접 분류

K 이웃 (KNN) 분류 알고리즘은 이론적으로 비교적 성숙한 방법이자 가장 간단한 기계 학습 알고리즘 중 하나이다. 이 방법의 아이디어는 하나의 특징 공간에서 K 개의 가장 유사 (즉, 가장 가까운) 샘플 중 대부분이 범주에 속할 경우 이 샘플도 이 범주에 속한다는 것이다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 예술명언)

9. 소박한 베이지안

많은 분류 모델 중 가장 널리 사용되는 두 가지 분류 모델은 의사 결정 트리 모델과 NBC (naive Bayesian model) 입니다. 소박한 베네치아 모델은 고전적인 수학 이론에서 유래한 것으로, 견고한 수학 기초와 안정적인 분류 효율을 갖추고 있다. 또한 NBC 모델은 추정해야 할 매개변수가 적고 누락된 데이터에 민감하지 않으며 알고리즘이 비교적 간단합니다. 이론적으로 NBC 모델의 오류율은 다른 분류 방법에 비해 가장 낮습니다. 하지만 실제로 항상 그렇지는 않습니다. NBC 모델은 속성이 서로 독립적이라고 가정하기 때문입니다. 이러한 가정은 실제 적용에서 종종 근거가 없는 경우가 많기 때문에 NBC 모델의 올바른 분류에 어느 정도 영향을 미칩니다. 속성 수가 많거나 속성 간의 종속성이 큰 경우 NBC 모델은 의사 결정 트리 모델보다 분류 효율이 낮으며 속성 종속성이 작은 경우 NBC 모델의 성능이 가장 좋습니다.

10.CART: 분류 및 회귀 트리

장바구니, 분류, 회귀트리. 분류나무 아래에는 두 가지 중요한 아이디어가 있다. 첫 번째는 인수 공간을 재귀적으로 나누는 것에 대한 생각이다. 두 번째 아이디어는 검증 데이터로 트리밍하는 것입니다.