데이터 분석의 위험 관리

90 년대 초 아메리칸 익스프레스 (Amarican)? Express 를 비롯한 미국 신용 카드 금융회사들은 데이터 모델링을 통해 위험 통제 능력을 향상시키고 정밀 마케팅 등의 문제를 해결하기 시작했습니다. 발견, 자본? 하나는 그 뒤를 따랐다.

1995 년, 아메리칸 익스프레스의 풍제어 모델이 시운전을 시작했고, 풍제어 시스템은 1997 년에 정식으로 가동되었다. 앞으로 몇 년 동안 아메리칸 익스프레스는 급속한 성장을 유지하고 불량 대출을 업계 최저 수준으로 낮췄다.

Discover 는 2008 년 글로벌 데이터 분석 센터를 상하이로 이전했습니다. 이 센터에서 흘러나온 풍제어 인재는 이미 국내 각 주요 상호금회사를 가득 채웠다.

업무 유형: 담보대출 (차대출), 신용대출 (이인대출 등), 소비할부 대출 (휴대폰 가전제품 등). ), 소액 현금 대출 (500/ 1000/ 1500) 등.

바람 통제에는 업무: 1) 데이터 수집: 신용 데이터, 운영자 데이터, 파충류, 웹 사이트 임베딩 지점, 과거 대출 데이터, 블랙리스트, 제 3 자 데이터 등이 포함됩니다.

-응? 2) 부정 방지 엔진: 주로 사기 방지 규칙과 사기 방지 모델을 포함합니다.

-응? 3) 규칙 엔진: 일반적으로 사용되는 전략. 주로 데이터 분석 수단을 통해 분야별, 구간별 부실 채권률을 집계한 다음 신용이 좋은 사람을 선택해 대출을 하는 것이다.

4) 바람 제어 모델&; 스코어카드: 모델 알고리즘에는 큰 차이가 없지만 시점 (사전/중간/사후) 에 따라 나뉩니다. 즉, 목표가 다르게 생성됩니다. 일반적으로 목표 변수는 신용 필드의 연체 일수로 정의됩니다. 카드는 고객 역사상 최대 연체 일수를 사용할 수 있고, B 카드는 복수 기간 최대 연체 대출을 사용할 수 있습니다. 목적이 다르기 때문에 C 카드를 만드는 방법도 다르다.

5) 독촉: 위험통제의 궁극적인 수단이다. 이 링크는 수금 기록의 문자 설명, 도착률, 사기 레이블 등과 같이 모형에 도움이 되는 많은 데이터를 생성할 수 있습니다.

1) 파충류는 휴대폰 앱의 정보를 잡을 수 있다. 우리는 휴대폰 앱을 공구류, 사교류, 오락류, 금융류의 네 가지 범주로 나눌 수 있다. APP 당 수량을 계산하므로 네 가지 특징이 있습니다.

2) 통신업체 데이터에서 고객이 얼마나 많은 전화를 했는지, 얼마나 많은 문자를 보냈는지, 얼마나 많은 트래픽을 사용했는지, 체납금이 있는지 알 수 있다.

3) 신용 보고서는 종종 간단한 신용 점수입니다. 일반 점수가 높을수록 고객 품질이 좋습니다.

4) 신분증에서 나이, 성별, 호적 등을 얻는 것과 같은 기본 정보로부터 사용자 초상화를 얻는다.

블랙리스트의 업그레이드 버전은 규칙 엔진이다. 그러나, 그것은 경험에서 나온 것이다. 예를 들어 보험회사는 연속 반품 5 회 또는 반품 비율이 80% 에 달하는 사람을 위한 반품 보험 구매를 거부할 수 있습니다. 규칙은 일반적으로 많은 노력을 유지 하기 위해, 지속적으로 변경 사항을 업데이 트 해야 합니다, 그렇지 않으면 많은 오판을 일으킬 수 있습니다. 의심스러운 현금 금액과 거래 건수가 일정 수를 초과하는 경우 방문을 거부하거나 중점적으로 주의를 기울이는 것이 좋습니다. XX 일 이내에 대출 신청 횟수가 특정 값보다 크므로 거부할 것을 권장합니다.

예를 들어 공무원, 의사, 변호사 등과 같은 입사 규칙을 설정할 수 있습니다.

참깨점이 750 점보다 큰 것과 같은 직접대출 원칙도 설정할 수 있다.

목표 변수를 결정하는 방법: 카드 A 를 예로 들면 주로 롤과 연도를 통과합니다. 예를 들어, 8 개월 이상 60 일 이상 연체된 고객은 불량 고객으로, 연체된 고객은 8 개월 연체되지 않은 고객은 양호한 고객으로 정의할 수 있습니다. 0-60 일 이내에 8 개월 연체된 고객은 확실하지 않고 샘플에서 제외됩니다.

1) 준비 작업: 모델마다 다른 비즈니스 시나리오에 따라 모델링 프로젝트를 시작하기 전에 비즈니스 논리와 요구 사항에 대한 명확한 이해가 필요합니다.

2) 모델 디자인: 모델 선택 (스코어카드 또는 통합 모델), 단일 모델 또는 모델 세분화가 포함됩니다. 거부 추론이 필요한지, 관찰 기간 정의 방법, 표현 기간, 사용자의 좋고 나쁨 등이 필요하다. 데이터 소스를 식별합니다

3) 데이터 추출 및 청소: 관찰 기간 및 성능 기간에 정의된 대로 데이터 풀에서 데이터를 추출하여 데이터 청소 및 안정성 검증을 수행합니다. 데이터 청소에는 예외, 누락 및 반복이 포함됩니다. 안정성 검사는 PSI, IV, 평균/분산 등의 시계열에서 변수의 안정성을 주로 조사합니다.

4) 특징 공학: 주로 특징 전처리 및 스크리닝. 스코어카드는 주로 IV 에 의해 필터링됩니다. 또한 피쳐 교차 (두 개 이상의 피쳐에 대한 곱셈/나눗셈/데카르트 곱), 피쳐 변환 등을 포함한 업무에 대한 이해를 바탕으로 피쳐 구축이 수행됩니다.

5) 모델링 및 평가: 스코어카드는 논리적 회귀를 통해 이진 예측으로만 xgb 를 선택할 수 있습니다. 모형이 작성되면 모형을 평가하고 AUC 및 KS 를 계산해야 합니다. 이 모델은 일반화 능력을 평가하기 위해 상호 검증되었습니다.

6) 모델 온라인 배포: 바람 제어 배경에서 모델 규칙을 구성합니다. Xgb 와 같은 일부 복잡한 모델의 경우 일반적으로 모델 파일을 pmml 형식으로 변환하여 캡슐화합니다. 백그라운드에서 파일 및 구성 매개변수를 업로드합니다.

7) 모델 모니터링: 이전 기간은 주로 전체 모델과 변수의 안정성을 모니터링했습니다. 주요 측정은 PSI (인구 안정성) 입니까? 색인). 사실 psi 는 각 점수 간격의 실제 및 예상 비율을 점수로 나눈 차이입니다. 10% 보다 작으면 모델을 업데이트할 필요가 없습니다. 25% 미만이면 모델에 집중해야 합니다. 25% 보다 크면 모형을 업데이트해야 합니다. 계산 모델 psi 는 일반적으로 동일 주파수를 사용하며 10 상자로 나눌 수 있습니다.

1. 카드 a, 카드 b, 카드 c 의 의미와 차이점은 무엇입니까?

신청 점수 카드: 신청 점수 카드는 고객 신청 처리 중 고객이 계좌를 개설한 후 일정 기간 동안의 위약 및 위약 위험 확률을 예측하여 신용 불량 고객 및 대상이 아닌 고객의 신청을 효과적으로 제외시킵니다. 동시에 고객에 대한 위험 가격 책정-금액과 이자율을 결정합니다. 사용 된 데이터는 주로 사용자의 과거 신용 기록, 긴 대출, 소비 기록 및 기타 정보입니다.

B-카드 (행동 스코어카드): 계정 관리 중 계정 내역의 다양한 행동 특성을 기준으로 계정의 미래 신용 성과를 예측하는 행동 스코어카드입니다. 하나는 대출의 위험을 예방하고, 다른 하나는 사용자 한도를 조정하는 것이다. 사용되는 데이터는 주로 사용자가 이 플랫폼에서 로그인, 브라우징 및 소비 행위에 대한 데이터입니다. 대출 상환, 연체 및 기타 대출 성과 데이터도 있습니다.

C 카드 (컬렉션? 득점? 카드): 연체 계정에 대한 반응 확률을 예측하여 해당 독촉 조치를 취하는 독촉 스코어카드입니다.

세 장의 차이점:

데이터 요구 사항이 다릅니다. 카드 한 장은 일반적으로 0- 1 년 대출 신용 분석에 사용할 수 있습니다. B 카드는 신청자가 일정한 행동을 한 후 큰 데이터로 진행한 분석이다. C 카드는 더 많은 데이터가 필요하고, 수집 후 고객 반응과 같은 속성 데이터를 추가해야 합니다.

특징 차이: 카드 한 장은 대부분 고객이 작성한 기본 정보, 제 3 자 정보 등과 같은 신청자의 배경 정보를 사용합니다. 그리고 이 모델은 일반적으로 비교적 신중합니다. B Cali 는 많은 트랜잭션 기반 기능을 사용합니다.

2. 왜 풍제어 분야에서 로지스틱 컴백 모델을 선택하는데 그 한계는 무엇입니까?

1) 첫째, logistic 회귀 민감도가 다른 복잡한 모델보다 낮기 때문에 견고합니다.

2) 모델은 직관적이고 계수의 의미는 해석하고 이해하기 쉽다.

단점은 잘 맞지 않고 정확도가 높지 않다는 것이다. 또한 데이터 요구 사항이 비교적 높고, 누락, 이상, 피쳐 공선성이 더 민감합니다.

왜 WOE 대신 IV 를 사용하여 피쳐를 필터링합니까?

IV 는 그룹 내 샘플 비율의 영향을 고려하기 때문입니다. 이 그룹의 WOE 가 높더라도 그룹화된 샘플의 비율이 작으면 이 피쳐의 마지막 예측 능력은 여전히 작을 수 있습니다.

4.ROC 및 KS 지표 (ks 는 0.2-0.75, AUC 는 0.5-0.9)

ROC 곡선은 TP 와 FP 를 가로좌표와 세로좌표로, KS 곡선은 TP 와 FP 를 세로좌표로, 가로축은 임계값으로 사용합니다. KS 는 모델에서 가장 차이가 큰 그룹을 찾을 수 있으며, 0.2 보다 크면 예측 정확도가 더 좋다고 생각할 수 있습니다. ROC 는 전반적인 차별화 효과를 반영 할 수 있습니다.

5 상자 분할 방법 및 나쁜 단조 로움

현재 업계에서는 best_ks, 카이 제곱 나누기 등과 같은 욕심 많은 알고리즘을 사용합니다. Badrate 단조 로움은 연속 숫자 변수를 질서 정연한 이산 변수로 나누는 과정에서만 고려됩니다 (예: 학력/크기). Badrate 의 단조로움을 고려해야 하는 이유는 주로 업무 이해상의 원인이다. 예를 들어 기한이 지난 역사가 많을수록 불량률이 커진다.

6. 왜 서로 다른 바람 제어 모델이 일반적으로 같은 기능을 사용하지 않는가?

거절당한 사람이 가난한 것은 어떤 특성 때문이다. 같은 특징으로 반복해서 선별하면 시간이 지날수록 앞으로 모델링될 샘플에는 이런 사람이 없을 것이다. 따라서 피쳐의 샘플 분포가 변경됩니다.

위험 통제에 사용되는 감독되지 않은 알고리즘은 무엇입니까?

클러스터 알고리즘, 그래프 기반 이탈 감지, LOF (로컬 이상 계수), 고립된 숲 등이 있습니다.

8. 카이 팡 분열

카이 박스 포장은 통합 기반 데이터 이산화 방법입니다. 기본 사상은 비슷한 클래스 분포를 가진 인접한 간격을 병합하는 것이다. 카이 제곱 값이 낮을수록 두 간격이 더 비슷해집니다. 물론 무한 합병은 불가능하다. 우리는 그것을 위해 문턱을 설정했다. 그것은 자유도와 자신감을 바탕으로 한 것이다. 예를 들어 클래스 수가 n 인 경우 자유도는 N- 1 입니다. 신뢰도는 발생 확률을 나타냅니다. 보통 90% 를 받을 수 있어요.

Best-ks 패키지

카세트 포장과는 반대로, best-ks 포장은 점진적인 과정이다. 피쳐 값을 가장 작은 값에서 가장 큰 값 순으로 정렬하고 KS 의 가장 큰 값은 접점입니다. 그런 다음 데이터를 두 부분으로 나눕니다. 상자 수가 사전 설정된 임계값에 도달할 때까지 이 과정을 반복합니다.

10. 추론 거부? 추론)

포인트 카드를 신청하는 것은 승인된 신용 고객의 역사적 데이터를 사용하여 모델을 구축하는 것이지만, 이 모델은 원래 거부되었던 이 고객이 포인트 카드 모델에 미치는 영향을 무시합니다. 모델을 더 정확하고 안정적으로 만들기 위해서는 추론을 거부하여 모델을 수정해야 합니다. 게다가, 회사 규칙의 변화는 과거에 거절당한 고객들을 현재 통과시킬 수도 있다. 합격률이 낮은 장면에 적합합니다.

일반적인 방법: 하드 컷아웃 방법-먼저 초기 모델을 사용하여 거부된 사용자를 평가하고 임계값을 설정합니다. 이보다 높은 점수는 좋은 사용자로 표시됩니다. 그렇지 않으면 나쁜 사용자로 표시됩니다. 그런 다음 표시된 거부된 사용자를 샘플에 추가하여 모델을 재교육합니다. 할당 방법-이 방법은 스코어카드에 적용됩니다. 샘플을 점수별로 나누어 각 그룹의 위약률을 계산하다. 그런 다음 이전 방법에 따라 거부된 사용자를 평가하고 그룹화합니다. 각 그룹의 위약률을 샘플링 비율로 무작위로 해당 그룹의 위약사용자를 불량 사용자로 지정하고 나머지 사용자는 양호한 사용자로 표시합니다. 그런 다음 재교육을 위해 표시된 거부된 사용자를 샘플에 추가합니다.

1 1. 모델링 시 모형의 안정성을 어떻게 보장합니까?

1) 데이터 사전 처리 단계에서 월별 IV 차이를 계산하여 두 시점 변수 적용 범위의 변화와 PSI 의 차이를 관찰하여 시계열에서 변수의 안정성을 확인할 수 있습니다. 예를 들어, 우리는 1- 10 개월 데이터 세트를 선택하고 K 배 검증의 아이디어를 참고하여 10 그룹 검증 결과를 얻습니다. 달의 추이에 따라 모델의 변화가 큰 추세 변화를 가지고 있는지 관찰하다.

2) 변수 필터링 단계에서 비즈니스 이해에 반하는 변수를 제거합니다. 스코어카드인 경우 구분도가 너무 강한 변수를 제거할 수 있습니다. 이 변수의 영향을 많이 받고 안정성이 떨어집니다.

3) 상호 검증, 하나는 시계열 상호 검증이고, 다른 하나는 k 배 상호 검증입니다.

4) 안정성이 좋은 차종을 선택한다. 예를 들어, xgb? 랜덤 포레스트 등

12. 고차원 스파스 및 약한 피쳐를 어떻게 처리합니까?

고차원 스파스 피쳐의 경우 logistic 회귀가 gbdt 보다 우수합니다. 후자의 벌칙은 주로 나무 깊이와 잎 수로, 스파스 데이터에 대해 그다지 엄격하지 않고 지나치게 잘 맞는다. Logistic 회귀 스코어카드를 사용하여 피쳐를 0 과 0 이 아닌 0 으로 이산화한 다음 woe 인코딩을 수행할 수 있습니다.

스코어카드가 모델링에 사용되는 경우 약한 피쳐는 일반적으로 삭제됩니다. 스코어카드에는 너무 많은 특징이 없어야 합니다. 보통 15 이하입니다. Xgb 는 데이터 요구 사항이 낮고 정확도가 좋습니다. 크로스오버 일부 약한 기능은 예상치 못한 효과를 낼 수 있습니다.

13. 모델이 온라인 상태에서 안정성이 좋지 않거나 온라인 차별 효과가 좋지 않다는 것을 발견했다. 어떻게 조절합니까?

모델이 불안정합니다. 먼저 모델링할 때 피쳐의 안정성을 고려했는지 확인합니다. 모형 초기에 안정성이 떨어지는 변수를 발견하면 포기하거나 다른 변수로 대체하는 것을 고려해 볼 수 있습니다. 또한 온라인 및 오프라인 사용자와 모델링 시 사용자의 분포 차이를 분석하고 모델링 시 추론을 거부하는 단계를 고려하여 모델링 샘플의 분포를 실제 전체 응용 프로그램 사용자에 더 가깝게 만듭니다.

온라인 효과 차이는 변수의 각도에서 분석할 수 있습니다. 효과가 좋지 않은 변수를 제거하고 모델에서 새 변수를 파냅니다. 모델이 오랫동안 온라인 상태이고 사용자의 속성이 천천히 전송되면 다음 모델로 데이터를 다시 가져옵니다.

14. 바람 제어 모델 콜드 스타트 방법

제품이 처음 출시되었을 때 사용자 데이터가 축적되지 않았거나 사용자가 좋고 나쁨을 나타내지 않았다. 이때 고려할 수 있다: 1) 모델을 만들지 않고 규칙만 한다. 비즈니스 경험을 통해 사용자에 대한 접근 임계값 설정, 사용자의 신용 기록 및 장기 위험 고려, 제 3 자 사기 방지 서비스 및 데이터 제품에 대한 액세스 규칙과 같은 엄격한 규정을 적용합니다. 또한 수동 감사와 함께 사용자의 신청 자료에 대한 위험 평가를 수행할 수 있습니다. 2) 유사한 모델의 데이터를 사용하여 모델링합니다.

15. 샘플 불균형 문제

클래스 가중치를 조정하는 것 외에도 샘플링 방법은 주로 이 문제를 해결하는 데 사용됩니다. 흔히 볼 수 있는 것은 소박한 임의 과샘플링, SMOTE, ADASYN (어댑티브 합성 과샘플링) 이다.

16. 운영자 데이터 처리

통화 날짜에 따라 통화 기록은 최근 7 일, 반달, 최근 1 월, 최근 3 월, 최근 6 월 등 시간 창으로 나눌 수 있다. 구체적인 날짜에 따라 근무일, 공휴일 등으로 나눌 수도 있다. 통화시간에 따라 하루는 새벽, 오전, 오후, 저녁으로 나눌 수 있다. 전화번호의 경우, 한 가지 아이디어는 귀속에 따라 성시를 나누는 것이고, 또 다른 아이디어는 번호를 표기하고 택배, 괴롭힘 전화, 금융기관, 중개 등을 구분하는 것이다. 전화회사의 라벨에 따르면 바이두 휴대전화 경비사와 써우거우 번호가 통한다. 심지어 업무축적에 따라 이 번호가 블랙리스트 사용자인지, 신청사용자인지, 신청거부사용자인지 구분할 수 있다. 사용자와 다른 번호 태그 간의 교류는 사용자의 교류 습관과 생활 특징을 반영할 수 있다.

17. 단계별 회귀

인수 간의 관계가 복잡해서 변수 선택을 파악하기가 어려운 경우 단계별 회귀를 통해 변수를 필터링할 수 있습니다. 단계별 회귀의 기본 사상은 변수를 모델별로 도입하고, 도입된 각 변수에 대해 F검사, 선택한 변수에 대해 T 검사를 수행하는 것입니다. 처음에 도입된 변수가 이후 변수가 도입된 후 더 이상 두드러지지 않으면 원래 변수가 삭제됩니다. 새 변수가 도입될 때마다 회귀 방정식에 중요한 변수만 포함되어 있는지 확인합니다.

18. 왜 로지스틱 회귀에서 피쳐 조합 (피쳐 교차) 을 자주 합니까?

Logistic 회귀는 비선형 피쳐를 도입하여 모형의 표현 능력을 향상시킬 수 있는 넓은 의미의 선형 모델입니다.

부분 참조 문장:/content/qita/775233/article/jxwvkab9t 7mpwh xj9ymu/developer/article/1488 /developer/아티클/1059236? /taenggu 0309/ 스코어카드-함수