큰 데이터가 반드시 좋은 데이터와 같은 것은 아니며, 점점 더 많은 전문가들이 큰 데이터가 자동으로 좋은 분석 결과를 산출하지 않을 것이라고 굳게 믿고 있다. 데이터가 불완전하거나, 단절되거나, 파괴될 경우 기업의 잘못된 결정이 발생하여 기업의 경쟁력을 약화시키거나 사용자의 일상생활에 영향을 줄 수 있습니다.
하버드대 교수, 미국 수량사회과학연구소 소장인 개리킹이 단장하여 잘못된 결과를 얻었다. 그는 트위터와 기타 소셜미디어 게시물에서' 일',' 실업',' 분류' 등의 키워드를 검출해 미국의 실업률을 예측하는 큰 데이터 분석 프로젝트를 시작했다.
감정 분석 기술을 사용하여 이 단체는 이러한 키워드가 포함된 트위터 및 기타 소셜 미디어 게시물을 수집하여 해당 게시물의 증가 또는 감소가 월별 실업률과 관련이 있는지 확인했습니다.
이러한 내용을 감시하면서 연구원들은 키워드 ('일') 중 하나가 포함된 게시물의 수가 급격히 증가한 것을 발견했지만, 이후 실업률과는 무관하다는 것을 발견했다. 잡스 (그 이름에도' 일' 이라는 의미도 있음) 가 죽었다는 소식을 무시했기 때문이다. 우리는 이 예로부터 교훈을 얻어야 하며,' 신기한' 큰 데이터에 전적으로 의존해서 의사결정을 지도하지 말아야 한다.
김은' 잡스' 의 이중적 의미는 많은 유사 사건 중 하나일 뿐, 이 분야에서 일하는 사람들은 비슷한 경험을 했다고 말했다. 그는 "이러한 키워드 목록은 단기적으로는 가능할 수 있지만 장기적으로는 치명적인 실패로 이어질 수 있다" 고 말했다. 너는 추가적인 키워드를 추가하여 문제를 해결할 수 있지만, 이것은 대량의 인간 참여가 필요하다. "
Bing 소셜 페이지에 몇 가지 키를 입력할 수 있습니다. 관련이 있거나 관련이 없는 것을 볼 수 있습니다. 쿼리를 변경하지 않으면 시간이 지남에 따라 이러한 키워드가 포함된 주제가 주제에서 어느 정도 벗어나는 경우가 있고, 때로는 아주 작은 경우도 있고, 큰 경우도 있다는 것을 알 수 있습니다. ""
하지만 김은 전반적으로 대량의 빅 데이터 분석이 유용한 내용을 만들어 냈다고 밝혔다. Vantiv CSO 겸 고위 부사장인 김 존스 (Kim Jones) 는 새로운 문제는 아니지만 대량의 데이터가 기적적으로 좋은 분석 결과를 낳을 수 있다고 생각한다면 문제가 심각해질 수 있다고 말했다. 그는 "잡스의 예는 고전적인 사례다. 데이터 자체는 지혜와 같지 않다" 고 지적했다.
킹은 내용이 관건이라고 생각한다. 그는 빅 데이터 분석 회사인 Crimson Hexagon 의 수석 과학자이자 공동 설립자입니다. 마케팅 담당 부사장인 웨인 세인트 오만의 말에 따르면 이 회사는 온라인 대화에' 내용, 의미, 구조' 를 제공하는 것을 목표로 하고 있다.
그러나, 점점 더 많은 내용이 없는 데이터가 의사결정 과정을 추진하고 있다. 월스트리트저널은 2 월 의료보험회사가 큰 데이터를 사용하여 사용자들을 위한 아카이브를 만들었다고 보도했다. 이 회사가 추적하는 정보 중 하나는 초대형 옷을 구매한 역사로, 이로 인해 다이어트 계획을 추천할 수 있다.
사람들이 더 건강한 생활을 하도록 장려하는 것은 잘못이라고 생각하는 사람은 아무도 없지만, 이와 관련된 프라이버시 문제는 사람을 불안하게 한다. 이 사람은 다른 가족 구성원을 위해 특대 사이즈의 옷을 사줄지도 모른다. 이 프라이버시 문제는 더 심각한 영향을 미칠 수 있다. 2008 년 블룸버그 상업주간지에 따르면 처방약 구매 내역 때문에 보험 회사가 의료보험을 거부한 사람이 있는데, 이 사람의 구매 기록에 따르면 그 사람은 경미한 정신건강 문제가 있는 것으로 나타났다.
아담 프랭크 (Adam Frank) 는 그의 블로그에서 어떤 경우에는 소셜 사이트 LinkedIn 이나 페이스북에서의 연락으로 인해 은행이 대출을 거부할 것이라고 지적했다. 만약 너의 친구가 약속을 어긴다면, 너의 명성도 그들의 명성의 영향을 받을 수 있다. 미국 시민자유연맹의 선임 정책 분석가인 제이 스탠리 (Jay Stanley) 는 "카드사들은 때때로 다른 소비자의 신용기록으로 인해 소비자 한도를 낮추는 경우가 있다" 고 지적했다.
김 존스는 추가 분석 없이 상관관계에서 결론을 얻어 그에게 폐를 끼쳤다고 말했다. "1980 년대 말과 1990 년대 초에 자료에 따르면, 20 세에서 27 세 사이에 초급 고급차를 운전하는 히스패닉계와 흑인 남성이 마약상이 될 가능성이 가장 높다. 그리고 저는 이 기준에 부합합니다. 저는 아프리카계 미국인입니다. 나이는 이 범위 내에 있습니다. 그때 나도 이런 차를 운전했지만, 나는 마약상이 아니었다. "
그는 "우리는 단지 데이터 분석에만 의존할 수 없다. 이것은 나쁜 결과를 초래할 수 있다" 고 말했다. 만약 네가 사람의 분석 요소를 소홀히 한다면, 너의 오류율은 매우 높을 것이다. "
간단히 말해서, 빅데이터는 도구이지만 해결책으로 간주해서는 안 된다. "수백만에서 150 정도로 범위를 좁히는 데 도움이 된다" 고 존스는 말했다. "하지만 우리는 컴퓨터가 모든 판단을 내리게 할 수는 없다. 결국 너에게 폐를 끼칠 수 있기 때문이다."