HMS Core 의 광학 문자 인식 (OCR) 기술이 통합되어 있습니다. 이 기술은 그림의 문자를 텍스트로 지능적으로 인식하는 심도 있는 학습 기반 AI 기술입니다. 그럼, AI 가 사진에 있는 글자를 지능적으로 인식할 수 있다면 AI 가 수화 통역을 할 수 있을까요? AI 에게 자동으로 수화 애니메이션으로 번역될 수 있다면 누구나 AI 로 수화를 배울 수 있고, 심지어 AI 는 청각 장애인과 건전한 사람 사이의 실시간 번역기가 될 수 있다. AI 에게 이득이 되는 것은 아이들의 독서 장면뿐만 아니라 더 넓은 청각장애자들도 있다. (윌리엄 셰익스피어, 독서, 독서, 독서, 독서, 독서, 독서, 독서, 독서, 독서)
HMS 핵심 기능을 통해 AI 수화 통역을 개방하기 위해 개발자가 전 세계 4 억 6 천만 명의 청각 장애인을 통합할 수 있도록 합니다. 우리가 직면해야 할 첫 번째 질문은-AI 가 수화 통역을 할 수 있고, 문자 지능에서 수화 애니메이션을 만들 수 있을까? HMS Core 는 3D 디지털 인체 모델링, 자연어 이해, 컴퓨터 비전, 3D 애니메이션, 그래픽 렌더링, 모바일 안드로이드 개발, 클라우드 서비스 등 다양한 핵심 기술을 포괄하는 전문가 팀을 구성했으며, 국내 수화 언어학 권위 교수를 프로젝트 컨설턴트로 초청해 * * * 지능형 실시간 수화 번역 프로젝트를 공략했다. 알고리즘과 데이터의 이중 과제
수화 번역 프로젝트가 온라인상에 오르자 팀은 대량의 문헌과 특허를 열람함으로써 업계 내 관련 기술을 신속하게 조사하여 몇 가지 주요 문제를 함께 정리했다. 먼저 수화 동작의 고정밀 요구 사항을 감안하면 1 cm 의 손가락 끝 위치 오차는 완전히 다른 의미를 의미할 수 있습니다. 둘째, 대규모의 고품질의 중국어와 수화의 수화 코퍼스를 얻는 것은 매우 어렵고, 단기간에 그렇게 많은 전문 수화 교사를 찾아 코퍼스를 제공할 수 없다. 셋째, 수화는 독립된 언어로서 자신의 문법과 어순이 있고, 중국어와 수화는 문법과 어순에 차이가 있다. 예를 들어, 중국어 "나는 신분증을 가지고 있지 않다", 해당 수화 순서는 "신분증/나/벨트/없음" 입니다. 마지막으로 수화에는 손동작뿐만 아니라 몸짓, 얼굴 표정, 입동작까지 포함되므로 멀티모드 데이터의 시너지 생성이 중요하다.
수화 팀은 이러한 문제를 하나씩 분석하고 솔루션을 논의하여 텍스트 기반 멀티 모달 디지털 인체 동작 및 표정 생성 시나리오를 출력합니다. 이 방안은 수화 변환 모듈과 수화 동작 표정 생성 모듈로 구성되어 수화 언어학 분야의 지식을 융합해 고품질의 모션 캡처 데이터가 적은 문제를 효과적으로 해결할 수 있다.
알고리즘 방안이 확정되자 수화 팀은 더 큰 도전인 데이터에 직면했다. 인공지능 분야에는' 병마가 움직이지 않고, 식량이 선행한다' 는 말이 있다. 수화 번역 프로젝트의 경우,' 사료' 는 수화 변환 데이터와 3D 운동 데이터를 포함한 수화 데이터를 얻는 문제입니다. 어떻게 합리적인 이전 계획을 세울 수 있습니까? 수화 프로젝트의 상업적 요구를 충족시키기 위해 데이터를 수집할 수 있는 동작 캡처 장치는 무엇입니까?
전사는 언어학, 컴퓨터 과학과 밀접하게 결합해야 하는 일이다. 이를 위해 기술 전문가와 수화 고문은 밀접하게 협력하여 수화 언어학 연구에 힘쓰고 있다. 여러 차례의 토론을 거쳐 본 프로젝트에 적합한 수화 전사 기준을 제정하였다. 언어는 어감 중심의 물건이고, 컴퓨터는 규칙을 중시한다. 수화 언어학에 대한 지식을 컴퓨터로 표현할 수 있는 규칙으로 요약하기 위해 팀의 인공지능 전문가와 수화 고문은 여러 차례 전사 규칙을 논의하고 20 여 개 버전을 반복적으로 수정하며 프로젝트 요구에 맞는 맞춤형 전사 방안을 완성했다.
동작 캡처 데이터의 경우, 여러 방면의 조사와 동작 캡처 장비에 대한 현장 조사를 통해 수십 가지를 거쳐 수화 팀은 동작 캡처에 대한 데이터 수집이 생각보다 훨씬 복잡하다는 사실을 알게 되었습니다. 동적 캡처 과정에는 여러 가지 이유로 오차가 발생할 수 있습니다. 예를 들어, 동적 스냅복은 몸에 달라붙지 않고, 동적 스냅인의 비율은 수화 디지털 사람의 비율과 일치하지 않아 원본 데이터를 직접 캡처하는 데 사용됩니다. 그래서 수화 팀은 즉시 액션 복구 팀을 구성하여 모바일 캡처 데이터 수집을 가속화하고 프로젝트를 안정적으로 추진했습니다.
수화 디지털인과 개발자 대회 이야기
데이터 수집과 AI 알고리즘 모델의 반복 최적화가 진행됨에 따라 수화 서비스의 엔지니어링이 순조롭게 진행되고 있습니다. 수화 번역 팀은 단 일주일 만에 모바일 SDK 개발 코드를 완성하고 클라우드 디버깅을 성공적으로 완료했습니다. 동시에, 수화 번역 팀은 다양한 솔루션을 시도한 후 회전 각도를 통해 골격을 직접 구동하여, 디지털 사람이 운전한 후의 동작으로 인한 수화 의미의 미묘한 차이를 방지하고, 수화 디지털인이 정확하게 수화 동작을 완성할 수 있도록 했다.
모든 것이 준비되고 수화 서비스가 제 1 판을 열고 HDC 에 만족스러운 답안지를 제출할 준비가 되어 있다. 수화 팀은 수화 디지털인이 개발자 대회의 라이브 강연을 계속 지지하도록 하기로 했다. 이 도전은 상상할 수 있다. 화웨이 개발자 대회는 생방송을 보는 사람이 매우 많다. 수화 디지털인이 이 무대에 올라 생방송 과정에서 청각 장애인 친구에게 수화 통역을 제공할 수 있다면 생방송을 보는 모든 사람들은 수화를 할 줄 아는 빨간 옷 소녀를 알아차릴 것이다. 이것은 의심할 여지없이 더 많은 사람들의 관심을 끌 것이며, 더 많은 개발자들이 청각 장애인 사용자를 위해 수화 서비스를 제공하게 될 것이다.
수화 서비스는 텍스트에서 수화를 생성하는 서비스로, 알고리즘의 출력은 생방송 시 음성 인식의 결과에 크게 의존한다. 음성 인식의 정확성을 어떻게 보장할 수 있습니까? HDC 대회의 발언에는 중국어와 영어가 뒤섞인 전문 용어가 많이 포함되어 있다. 수화 디지털인이 이 글자들을 어떻게 치나요? 전체 구동 및 렌더링 방안을 자체 연구 엔진으로 옮기는 것이 호환됩니까? 이러한 어려운 문제에 직면하여 수화 팀은 HDC 대회 생방송 연구팀을 구성했으며, 일부 회원들은 알고리즘 연구를 진행하고 있으며, 수화 생성 알고리즘 모델을 최적화하고 HDC 대회에서 나타날 수 있는 기술 자료를 포괄하고 있습니다. 다른 멤버들은 구름 위의 음성 인식, 문자 대 수화 알고리즘 배치, 생방송 중 3D 모델 구동 등의 문제를 공관해 수화디지털인이 생방송 중 마이크의 목소리와 수화를 성공적으로 식별할 수 있도록 했다. 한 달도 안 되어 나는 충분한 준비를 했다.
HDC202 1 예정대로 열리는 날. 수화 팀의 파트너들은 무대 뒤의 생방송 화면을 긴장하게 보고 있다. 그들은 생방송 화면 왼쪽 아래 구석에 있는 빨간 옷 소녀를 주시하며 수화 디지털인이 어떤 고장도 날까 봐 걱정했다. 다행히도, 전체 생중계에서, 그녀의 표현은 아주 여유가 있어, 사람을 놀라게 한다! 이 순간, 팀의 모든 사람들의 심정은 똑같다. 꾸준한 노력은 헛되지 않았고, 마침내 HDC 의 큰 무대에서 수화 디지털인을 보았다!
국내 최초의 디지털 가상인물에 의한 실시간 회의 현장 수화 번역으로 화웨이가 자체 개발한 AI 알고리즘과 렌더링 기술 덕분에 실시간 회의 현장 수화 번역은 실물 없이 이뤄질 수 있다. 음성 인식, 수화 생성 및 구동 렌더링을 포함한 클라우드 기반 수화 번역 체계는 HDC202 1 에 의해 검증되었습니다. 수화 동작을 정확하게 나타낼 뿐만 아니라 수화 번역에서 흔히 볼 수 있는 기술적 어려움인 표정 시스템도 해결했다. 표정의 출현으로 수화 디지털인이 수화의 뜻을 더 완전하고 정확하게 표현할 수 있게 되었다. 현재 수화 서비스는 10 가지 다른 표현 유형의 출력을 지원합니다. 가까운 장래에 이 방안은 미디어 콘텐츠 제작에 투입될 수 있고, 청각 장애가 있는 친구들도 더 많은 사회 정보를 얻을 수 있을 것으로 믿는다.
기술 이전 온도
세계에는 4 억 6000 만 명의 청각 장애인이 있는데, 현재 이 세대의 중국 수화는 이 사람들을 덮기에 충분치 않다. 앞으로 HMS 핵심 수화 팀은 수화 번역의 효과와 수화 디지털인의 렌더링 효과를 지속적으로 최적화하는 한편, 영어 수화 생성 능력을 구축하고 수화 서비스를 세계화하여 더 많은 청각 장애인을 위한 서비스를 제공할 예정입니다.
가까운 장래에 수화 디지털인이 더 많은 장소에서 여러분을 만날 수 있을 것으로 믿습니다. 그녀는 TV 뉴스 프로그램의 수화 번역창에 나타나 여러분을 위해 뉴스를 번역할 수 있습니다. 지하철이나 비행기를 탈 때 수화로 청각 장애인 친구에게 안전 고지를 방송할 수도 있다. 심지어 일부 특수 교육 학교에서도 수화 교사가 되어 청각 장애가 있는 학생들에게 수화를 배울 수 있습니다. 이 아름다운 소망으로 HMS 핵심 팀은 청각 장애인들에게 더 많은 온도를 가져다 줄 수 있도록 수화 서비스 능력에 기반한 Storysign 2.0 앱을 만들고 있다.
HDC 컨퍼런스에서 말했듯이, 하늘의 별은 누구도 꺼질 수 없다. 모든 개발자는 화웨이가 모이려고 하는 불꽃이다. 현재, 수화 디지털인은 HMS 핵심 수화 서비스를 통해 개발자에게 전면 개방되어 더 많은 응용 프로그램 개발자가 우리의 수화 서비스 SDK 를 호출하여 실시간 수화 번역을 신속하게 실현하고 다양한 수화 앱을 만들어 청각 장애인에게 더욱 다양한 서비스를 제공할 수 있게 되었습니다. 수화 서비스 팀은 개발자와 함께 화웨이 모바일 서비스의 별빛을 만들어 교류가 방해받지 않는 세상을 만들고자 합니다.