무엇이 데이터 과학자들을 미치게 만들까요?
오늘날 사람들은 데이터 과학에 대한 열정이 넘칩니다. 제품 소개에' 인공지능 구동' 을 넣으면 제품 판매를 크게 촉진할 수 있다.
그러나 문제도 뒤따른다.
데이터 과학은 마케팅에서 종종 과장된다. 이에 따라 고객은 기대를 크게 높였습니다. 그러나 결국 데이터 과학은 고객의 높은 기대를 충족시키기 위해 최선을 다해야 한다.
이 문장 에서 우리 는 기계 학습 프로젝트 에서 데이터 과학자 를 미치게 하는 8 개 의 공통적 인 문제 와 왜 이런 문제 가 데이터 과학자 를 괴롭히는지 논의할 것 이다.
데이터 과학 분야에도 있거나 이 분야에 진출하는 것을 고려한다면, 이러한 문제들을 정리하면 더 나은 판단과 처리를 하는 데 도움이 될 것이다. (존 F. 케네디, 과학명언)
1. 우리는 이 문제를 해결하기 위해 인공지능 모델을 원한다
업계 내 문제의 80% 는 간단한 탐색 데이터 분석을 통해 해결할 수 있다. 기계학습으로 일부 문제를 해결한다면, 약간의 재목이 작은 것이라면, AI 사용을 고려할 필요가 전혀 없다.
예, 고급 분석이 높습니다. 기업들은 이 방면에 투자하는 것을 좋아해서 업계 선두에 있다. 어떤 회사가 AI 프로젝트를 홍보하고 싶지 않습니까? 그러나 고객에게 적절한 업계 사용 사례를 채택하는 기본적인 설명이 필요합니다.
"지금까지 인공지능의 가장 큰 위험은 사람들이 이미 그것을 완전히 이해했다고 일찍 생각한다는 것이다."
-엘리제 유드코프스키
2. 일부 데이터를 통해 우리는 혁명적인 분석 의견을 얻을 수 있다.
일반적으로 고객은 데이터 제출만 필요하다고 생각합니다. 일부 고객은 4 번과 같이 관련 문제에 대한 정의도 제공하지 않았습니다. 그들은 데이터를 얻기 위해 데이터 분석가가 필요하며, 하룻밤 사이에 기업의 발전 방향을 바꿀 수 있는 혁신적인 비즈니스 통찰력을 얻을 수 있습니다.
불행히도, 데이터 과학자들은 혼자서 실행 가능한 상업 건의를 할 수 없다. 이를 위해서는 고객과의 지속적이고 효과적인 의사 소통이 필요하며 기업의 상황을 충분히 이해해야 합니다. 전체 프로젝트 과정에서 정기적으로 업무 인력과 함께 계획을 세우는 것이 중요하다.
"만약 당신이 올바른 질문을 어떻게 해야 할지 모른다면, 당신은 아무것도 얻지 못할 것입니다."
-에드워드 데밍
3. 모델을 구성하고 불필요한 분석을 생략하여 시간을 절약합니다
많은 데이터 분석가들은 데이터 정리 및 탐색 분석의 중요성을 간과하고 있습니다.
데이터 분석은 기계 학습 및 기타 상위 수준 분석에 필요한 단계입니다. 데이터를 이해하지 못하거나 비정상적인 값이나 잠재적 패턴을 발견하면 모델은 쓸모가 없습니다. 그래서 분석을 위해 시간을 두고 가치 있는 발견을 고객에게 공유해야 한다.
"연금술사가 금을 찾을 때, 그들은 다른 더 가치 있는 것들을 많이 발견할 것이다."
아서 쇼펜하우어
지난주 자료에 따르면 향후 반년 동안의 데이터를 예측할 수 있을까요?
이것은 데이터 과학자들이 가장 싫어하는 상황이다. 고객은 스프레드시트에 몇 줄의 데이터를 제공하고 인공 지능이 미래를 예측할 수 있기를 원합니다. 때로는 더 과장되기도 합니다. 데이터가 없을 때 고객은 기계 학습이 이러한 데이터의 공백을 메울 수 있는지 알고 싶어합니다.
데이터의 품질과 양은 매우 중요하며,' 쓰레기 유입, 쓰레기 유출' 은 데이터 분석에 적용된다. 유용한 통계 기술은 데이터 문제를 처리하고 당신이 제공한 소량의 데이터에서 더 많은 결론을 도출하는 데 도움이 된다. 예를 들어 누락된 점을 예측하거나, 데이터를 생성하거나, 더 작은 단순 모형을 사용합니다. 그러나 이를 위해서는 결과에 대한 고객의 기대치를 낮춰야 합니다.
기술과 데이터량 간의 관계에 대한 분석, 자료 출처: 오은다.
2 주 안에 모델링 프로젝트를 완료 할 수 있습니까?
많은 종목에서 규정한 시간이 빠듯하다. 이런 고강도 프로젝트 배치는 종종 모델 엔지니어링 단계에 영향을 미친다. 모델 API 및 GPU 계산이 등장하면서 고객은 무엇이 느린 데이터 과학자의 속도를 늦추는지 알고 싶어합니다.
자동 기계 학습이 이미 진전을 이루었지만, 모델링 과정에서 수동 조작도 필수적이다. 데이터 과학자들은 고통스러운 반복에서 통계 결과를 검사하고, 모델을 비교하고, 해석을 검사해야 한다. 이것들은 자동화할 수 없고, 적어도 지금은 아직 할 수 없다. 사례를 통해 고객에게 이 점을 설명하는 것이 가장 좋습니다.
6. 출력 변수를 대체하고 새로 고칠 수 있습니까?
데이터 과학자들이 비즈니스 행동의 모델링 문제를 해결한 후, 새로운 요청이 곧 나타날 것이다. 즉, 마지막 작은 변화이다. 일반적으로 출력 변수를 대체하고 모형을 다시 실행합니다. 고객은 이러한 변화가 목표뿐만 아니라 전체 모델도 바꿀 수 있다는 것을 깨닫지 못했습니다.
기계 학습은 매우 반복적이지만, 중요한 과제는 주어진 출력 변수에 대한 올바른 영향 요인을 선택하고 그 관계를 매핑하는 것입니다. 고객은 이러한 이면의 기본 작동 원리를 이해하고 조정할 수 있는 범위를 명확히 해야 합니다.
7. 모델의 정확도가 100% 에 이를 수 있습니까?
사람들은 종종 오류율에 대해 오해가 있어서, 맹목적으로 시험 수준을 추구하기 쉽다. 일부 고객은 정확도가 100% 에 도달하기를 원합니다. 정확도가 다른 요인을 넘어 유일한 관심사가 될 때 이것은 매우 걱정스럽다. 복잡하고 달성 할 수없는 고정밀 모델을 수립하는 것은 무엇을 의미합니까?
높은 정밀도로 그물비행상을 받은 모델은 공식적으로 출시되지 않았다. 복잡성이 높으면 엄청난 공사 비용이 들지만 정확도가 낮은 모델이 채택될 것이기 때문이다. 따라서 정확성을 고려할 때는 단순성, 안정성, 업무 해석 가능성을 따져봐야 한다.
모델 엔지니어링: 다양한 요소의 트레이드 오프
8. 훈련된 모델은 계속 문제가 없을까요?
심혈을 기울여 모델링과 테스트를 거친 후 고객은 기계가 모든 것을 장악하고 있는지 알고 싶어한다. 일반적인 질문은 이 모델이 항상 고장이 없고 향후 비즈니스 변화에 적응할 수 있는지 여부입니다.
애석하게도 기계는 평생 공부할 수 없다. 그것은 끊임없는 훈련이 필요하며, 보통 몇 주나 몇 달마다 복습과 훈련을 해야 한다. 마치 한창에서 열심히 공부하는 학생처럼. 현재의 분석 산업은 빠르게 성장하고 있으며, 변화가 매우 빨라서, 모형은 끊임없이 유지 보수와 업데이트가 필요하다.
라벨
기계 학습 프로젝트에서는 위의 8 가지 오해가 데이터 과학자들을 골치 아프게 할 수 있으며, 다음 그림과 같이 기계 학습 모델링 주기의 6 단계에도 비슷한 문제가 발생할 수 있습니다.
기계 학습 항목의 수명 주기
이런 오해가 생긴 이유는 프로젝트에 대한 이해가 부족하여 경중완급을 제대로 파악하지 못했기 때문이다. 이러한 원인을 이해하는 데이터 과학자들은 고객을 더 잘 설명해야 쌍방이 타협하는 것이 아니라 문제를 더 잘 해결할 수 있다.