왜 AI 는 증오 언론과 괴롭힘 방면에서 식별 정확도가 매우 낮습니까?

언어의 유연성과 모호성으로 진정한 증오 발언을 식별하는 것은 쉽지 않다. 때때로 사람들은 그저 막말을 함부로 할 뿐, 그가 마음속으로 그렇게 생각한다는 것을 설명할 수는 없다. 일상생활에서 사람들은 여러 가지 이유로 욕설을 하고, 심지어 친구들 사이에서도 서로 욕설을 한다.

현재 포럼 등 인터넷 플랫폼이 증오발언을 얻는 방법은 대부분 사용자 신고에서 나온다. 인간은 그 끝없는 부정적인 발언을 계속 주시할 수 없다. 올해 초 구글은 욕설적 논평을 빠르게 식별하고 수동 심사를 용이하게 하는 투시소프트웨어를 개발했다. 웹 댓글과' 독성' 레이블이 붙은 댓글 사이의 유사성을 바탕으로 작동한다. 그러나 이후 소프트웨어 기술의 미성숙이 드러나기 시작했고, 채점 메커니즘에는 많은 폐단이 있었다. 예를 들어, 어떤 발언은' 여자로서, 너는 이렇게 똑똑하다' 고 하는데, 이는 악의적인 언론과의 유사성이18% 에 달한다. "나는 히틀러를 좋아한다" 는 말은 겨우 2% 에 불과하다. 사이버 폭력에 대해' 아니오' 라고 말하면, AI 는 증오 발언을 숨길 곳이 없게 한다.

이러한 키워드 태그 기반 방법과는 달리 캐나다 연구원들이 개발한 시스템은 다른 길을 개척하고 있다. 이 시스템은 주로 아프리카계, 비만인, 여성에 대한 연설을 연구한다. Reddit 또는 Voat (Reddit 와 유사한 사이트) 에는 이들에 대한 의견이 많다. 그 팀은 가장 활발한 두 커뮤니티를 발견했다. 하나는 나쁜 논평을 하는 것을 좋아하고, 다른 하나는 우호적인 논평을 하는 것을 좋아한다. 그들은 인공지능 소프트웨어를 이용하여 이 두 커뮤니티 구성원의 음성 특징을 배우고 시스템이 부정적인 발언을 정확하게 식별할 수 있는 능력을 높였다.

이 방법이 키워드 마크업 기반 시스템보다 더 정확하고 오판이 거의 없다는 연구결과가 나왔다. 어떤 발언들은 기존의 모욕적인 단어는 포함하지 않지만, 증오 발언에도 속한다. 만약 이전의 방법으로 식별할 수 없다면, 지금은 괜찮다. 예를 들어, "나는 이것이 잘못되었다고 생각하지 않는다. 동물은 항상 서로 공격한다. " 이 말은 체계적으로 증오 발언으로 표기되어 있다. 왜냐하면 이곳의' 동물' 이라는 단어는 인종 모욕의 뜻을 가지고 있기 때문이다.