이 과정을 마치면 Tableau 를 통해' Prosper 위약 고객의 특징' 이라는 문제를 탐색, 분석 및 시각화할 예정입니다.
마지막으로 무작위 산림 알고리즘을 사용하여 2009 년 7 월 이후 데이터를 모델링하고 진행 중인 대출의 위약 여부를 예측합니다.
프로스퍼는 미국 최초의 P2P 대출 플랫폼입니다. 이 데이터 세트는 우보 2005 년부터 20 14 까지 Udacity 의 대출 데이터에서 나온 것이다. 이 글은 완성된 대출에 대한 분석을 통해 어떤 고객이 위약할 가능성이 더 높은지 판단하고, 미완성 대출이 위약할지 여부를 예측하고자 한다.
원본 데이터 세트에는 8 1 개의 변수와 1 13937 개의 데이터가 포함되어 있습니다. 다음은 몇 가지 중요한 변수를 설명하고, 다른 변수의 의미는 변수 사전을 참조할 수 있다.
먼저 라이브러리와 데이터를 로드합니다.
그런 다음 df.describe () 와 df.info () 를 사용하여 데이터를 관찰합니다.
이번 주요 분석 1. 어떤 차용인이 위약에 더 취약합니까? 미상환 대출이 위약할지 여부를 예측합니다. 따라서 관련이 없는 항목을 제거하십시오.
2009 년 7 월부터 Prosper 는 고객에 대한 평가 방법을 조정했습니다. 이번에는 2009 년 7 월 이후의 대출 -0 1 만 분석했다.
의미가 중복되는 열을 삭제하려면 다음과 같이 하십시오.
Prosper 는 신규 고객에 대한 등급이 기존 고객과는 달리 이번에는 신규 고객에 대한 데이터만 분석합니다.
먼저 각 변수의 누락된 데이터를 검사합니다.
플랫폼은 대출 상태를 취소 (상쇄), 청구 (반제, 투자자 손실), 완료 (정상 완료, 투자자 손실 없음), 현재 (대출 상환), 채무 불이행 (부실 채권) 등 12 유형으로 나눕니다.
이 글은 거래가 아직 진행 중인지, 거래가 성사되었는지, 그리고 투자자가 이미 성사된 거래에서 손해를 봤는지 여부에 따라 모든 데이터를 다음 세 그룹으로 나눕니다.
현재 (현재, 만료 포함)
위약 (위약, 거절 포함)
완료됨 (완료됨 포함, finalpaymentinprogress).
후속 분석 계산을 용이하게 하기 위해 마침을 1 으로 변경하고 기본값을 0 으로 변경합니다.
완료된 대출 위반률 defaulted _ ratio _ finished = 26.07%.
이 데이터 세트에는 대출 사용자의 신용 상태를 반영하는 많은 특징이 있다. 여기서 신용 등급은 Prosper 가 자체 모델을 기반으로 대출 이자율을 결정하는 주요 근거이며, CreditScore 는 공식 신용 평가 기관에서 제공합니다.
그림 5- 1 에서 볼 수 있듯이, ProsperRating 이 증가함에 따라 위약률이 현저히 떨어지는 추세를 보이고 있다.
CreditScore 에서 낮은 점수 (640-700) 는 위약률이 비교적 높은 위치에 있어 큰 변화가 없다. 720 이상 부분에 대해서는 신용점수가 높아지면서 위약률이 현저히 떨어졌다.
전반적으로 차용인의 신용등급이 높을수록 위약 가능성이 낮아진다.
서로 다른 소득 수준 중에서 취업하지 않은 대출자의 위약률이 가장 높으며, 소득이 증가함에 따라 위약률이 계속 하락하고 있다.
서로 다른 대출 상황에서 위약 사용자의 월수입은 비위약 사용자보다 현저히 낮다.
그림 5-4 왼쪽에 따르면 위약 사용자와 비위약 사용자의 전체 부채 소득 비율은 크게 다르지 않습니다.
부채 소득 비율의 4 분위수에 따라 모든 데이터를 데이터 양이 비슷한 4 개 그룹으로 나눕니다. 그림 5-4 의 오른쪽 그림에서 볼 수 있듯이 낮은 비율 (부채 소득 비율 0-0. 12) 과 중간 비율 (0. 12-0. 19 비율이 높은 위약률 (0. 19-0.29) 은 앞의 두 가지보다 약간 높다. 높은 비율 (0.29 이상) 의 사용자의 위약률이 현저히 높아졌다.
은행 카드 사용의 4 분위수에 따라 데이터를' 미사용',' 낮은 대월 (0,0.3',' 중간 대월 (0.3,0.7',' 높은 대월 (0.7, 1)' 으로 나눕니다
당좌 대월이 심한 차용인의 위약률이 가장 높다는 것을 알 수 있다.
둘째, 사용하지 않은 사용자다. 금융기관이 특히' 백가구' 에 주목하는 이유다.
InquiriesLast6Months 는 대출자가 최근 금융기관에 대출을 신청한 빈도를 반영해 대출자의 최근 재정상태를 간접적으로 반영했다.
그림 5-6 에서 녹색 선은 서로 다른 조회 시간 동안의 대출 건수를 나타냅니다. 보시다시피 대부분 7 배 이하입니다.
0-7 회의 질의 범위 내에서 질의 수가 증가함에 따라 기본 비율이 증가합니다.
현재의 위약 상황은 대출자의 신용 상태를 잘 반영할 수 있다.
그림 5-7 에서 볼 수 있듯이 현재 대부분의 차용인의 연체 횟수는 2 회 이내이다. 0-6 범위 내에서 위약률은 현재 연체수가 증가함에 따라 증가한다.
일부 극소수의 범주가 위약율 순위에 미치는 영향을 피하기 위해 먼저 대출이 30 건이 넘는 범주를 선별했다.
그림 5-8 에서 볼 수 있듯이 가장 큰 숫자는 1- 채무 합병이다.
위약률이 가장 높은 것은 15- 의료/치과 (의료), 13- 가계지출 (가계지출) 과 3- 상업 (상업) 이 모두 30% 를 넘는다.
대출 금액의 4 분위수에 따라 데이터를 4 조로 나누어 숫자가 비슷하다. 흥미롭게도 중간 규모 대출 (365,438+000,4750) 은 위약률이 가장 높고, 대규모 대출 (8,500 이상) 은 위약률이 가장 낮다.
고액대출을 신청할 수 있는 사용자가 각 방면에서 조건이 좋아 위약률을 낮췄기 때문인 것 같다.
그림 5- 1 1 에서 볼 수 있듯이 0-30 범위 내에서 기간이 늘어나면서 위약률이 점차 낮아지고 있으며 이 범위에는 절반 정도의 데이터가 포함되어 있습니다.
오랜 기간 계속 성장할 때 위약율에는 뚜렷한 변화 법칙이 없다.
지역마다 위약률 차이가 뚜렷하다. 로스앤젤레스나 SD 등 도시에서는 위약률이 높다. Ut, co 등의 도시에서는 위약률이 낮다.
전반적으로 부동산이 있는 대출자의 위약률은 부동산이 없는 대출자보다 현저히 낮다.
관련 라이브러리를 가져옵니다.
데이터의 문자열 변수를 숫자로 변환합니다.
테스트 세트 30%, 교육 세트 70% 의 비율로 데이터 세트를 나누고 임의 산림 알고리즘을 사용하여 모델을 만듭니다.
모델 테스트 세트의 예측 정확도는 정확도 =73.99% 입니다.
임의 산림 알고리즘의 경우 이 모델에서 각 피쳐의 중요성을 확인할 수 있습니다.
그림 6-2 에서 볼 수 있듯이 StatedMonthlyIncome 과 EmploymentStatusDuration 이 가장 중요한 기능입니다.
이 모델에 따르면, 아직 진행 중인 대출이 위약인지 여부를 예측한다.
아직 진행 중인 대출 위반률은 Default _ Ratio _ Predict = 3.64% 입니다.
이 문서에서는 데이터 탐색에서 모델 구축 및 예측에 이르는 Prosper loan 데이터의 전체 프로세스에 대해 자세히 설명합니다.
월소득과 고용기간이 위약 여부에 가장 큰 영향을 미치는 것으로 나타났다. 주로 이 두 가지가 대출자의 안정성을 반영하는 중요한 요소이기 때문이다.
모델 구축의 경우 이 모델의 매개변수를 조정하여 정확도를 높이거나 logistic 회귀와 같은 다른 알고리즘을 사용하여 비교를 위해 새 모델을 만들 수도 있습니다.