현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 심도 있는 학습이 생물학에 어떤 변화를 가져왔는가?
심도 있는 학습이 생물학에 어떤 변화를 가져왔는가?
심층 학습 연구 및 생물 의학 분야에서의 잠재적 응용

심도 있는 학습은 이미 각종 생물 응용에서 성공을 거두었다. 이 섹션에서는 다양한 연구 분야에서 심도 있는 학습의 과제와 기회를 살펴보고, 가능한 경우 심도 있는 학습을 이러한 문제에 적용하는 연구 (표 1) 도 검토했습니다. 먼저 게놈학, 전사 조직학, 단백질 유전체학, 구조생물학, 화학 등 바이오 마커 개발의 중요한 분야를 살펴보았습니다. 그런 다음 다중 플랫폼 데이터 사용을 포함한 약물 발견 및 재사용의 전망을 검토했습니다.

바이오 마커. 생물의학의 중요한 임무 중 하나는 생물데이터를 표형과 신체 상태 (예: 질병) 를 반영하는 효과적인 생물표지물로 바꾸는 것이다. 바이오 마커는 임상 시험의 결과를 평가하는 데 중요합니다. 민감하고 특이한 바이오 표지물을 식별하는 것은 현대 전환의학의 거대한 도전이다. 전산 생물학은 바이오 마커의 발전이다. 사실, 게놈학에서 프로테오믹스에 이르기까지 모든 데이터 소스를 사용할 수 있습니다. 이것들은 다음 절에서 토론할 것이다.

유전체학. 차세대 시퀀싱 (NGS) 기술은 이미 대량의 게놈 데이터 생성을 허용했다. 이러한 데이터의 대부분은 현대 컴퓨팅 방법을 통해 컴퓨터에서 수행할 수 있습니다. 여기에는 게놈의 구조 주석 (비인코딩 제어 시퀀스, 단백질 결합 사이트 예측 및 스플 라이스 사이트 포함) 이 포함됩니다.

게놈학의 중요한 가지 중 하나는 환경, 생태 게놈학 또는 군락 게놈학이라고도 하는 매크로 게놈학이다. NGS 기술은 미양성 미생물의 자연다양성을 밝혀냈는데, 이는 이전에는 충분히 연구되지 않았다.

매크로 유전체학에서는 몇 가지 생물 정보학의 도전이 있다. 주요 과제 중 하나는 시퀀스 데이터의 기능 분석과 종 다양성 분석입니다. 심층 신념 네트워크와 재귀 신경망의 사용은 매크로 게놈 pH 데이터와 인간 미생물 그룹 데이터의 표현형 분류를 허용했다. 이러한 방법은 기본 방법에 비해 집중 학습만큼 분류 정확도를 높이지는 않지만 데이터 세트의 계층 표현을 배울 수 있는 기능을 제공합니다.

심도 있는 학습은 고차원 매트릭스 전사 그룹 데이터를 처리하는 데도 어느 정도 성공을 거두었다. 또 다른 방법에서는 유전자 표현의 특징과 miRNA 와 같은 전사물을 인코딩하지 않는 영역을 추출합니다. 이는 심도 있는 신념 네트워크와 능동적인 학습을 통해 이루어집니다. 여기서 심도 있는 학습 피쳐 추출기는 6 개의 암 데이터 세트의 차원을 줄이는 데 사용되며 기본 기능 선택 방법 [27] 보다 우수합니다. 능동적인 학습과 분류의 응용은 정확성을 높이고 유전자 표현보뿐 아니라 암 관련 특징 (향상된 암 분류) 을 선택할 수 있게 한다. MiRNA 데이터를 사용하는 피쳐 선택은 이전에 선택한 피쳐 하위 세트의 대상 유전자와의 관계를 통해 이루어집니다.

또 다른 심화 학습 응용 프로그램에서 Fakoor 등은 자체 인코더 네트워크를 사용하여 홍보하고 다양한 유형의 마이크로어레이 플랫폼 (Affimetrix 제품군) 에서 얻은 다양한 유전자 세트의 마이크로어레이 유전자 표현 데이터를 사용하여 암 분류에 적용합니다 [28]. 이들은 PCA 와 감독되지 않은 비선형 스파스 특성 학습 (자동 인코더를 통해) 을 결합하여 차원 감소를 사용하여 마이크로어레이 데이터의 일반 분류에 사용되는 특징을 구축합니다. 암 및 비암 세포의 분류 결과는 중요한 개선 사항, 특히 미세 조정의 사용을 감독하여 특징이 덜 일반적이지만 플랫폼 간 표준화된 데이터가 없어도 더 높은 분류 정확도를 얻을 수 있습니다. 자동 인코더의 글로벌 일반화 기능은 서로 다른 마이크로어레이 기술에 의해 수집된 데이터에 도움이 되므로 공용 영역의 데이터에 대한 대규모 종합 분석이 유망할 수 있습니다.

이미지 처리 응용 프로그램. 유전자 표현은 마이크로 어레이의 이미지 형광 신호 또는 RNA 원위치 하이브리드 형광 또는 방사성 신호와 같은 이미지로 시각적으로 저장할 수도 있습니다. 일부 응용 프로그램에서는 뛰어난 이미지 처리 성능으로 유명한 CNN 이 이러한 이미지 분석을 개선할 수 있는 잠재력을 보여 주었습니다.

마이크로 어레이 분석에서 반점 크기, 모양, 위치 또는 신호 강도의 변화로 인해 신호를 감지하고 형광 반점을 식별하는 것이 어려울 수 있으며 형광 신호 강도는 일반적으로 유전자 또는 시퀀스 표현 수준의 차이에 해당합니다. 이 문제에 대한 심도 있는 학습 기술의 응용 프로그램에서는 CNN 을 사용하여 마이크로 어레이 이미지를 분할하며, 정확도는 기준 방법과 유사한 정확도를 보여주지만 훈련은 더 간단하고 컴퓨팅 자원이 적게 필요합니다. [29]

CNN 을 이미지 기반 유전자 표현 데이터에 적용할 수 있는 또 다른 기회는 RNA 원위치 교배인데, 이는 번거로운 기술이다. 이러한 조작이 허용되면 유전자 표현은 세포 그룹, 조직 슬라이스 또는 전체 유기체에서 찾아 시각화할 수 있습니다. 이 방법은 강력한 수직적 연구를 촉진하고 발전 과정에서 표현 패턴의 변화를 설명했다. 상세한 애륜 발육 쥐의 뇌지도를 만드는 데 쓰이는데, 여기에는 2000 여 개의 유전자 표현지도가 포함되어 있으며, 각 유전자는 여러 뇌 부분에 묘사되어 있다. 과거에는 이러한 수동 주석이 시간이 많이 걸리고 비싸고 때로는 정확하지 않았습니다. 그러나 최근에는 깊이 사전 훈련 CNN 을 사용하여 자동 치수기입 [30] 을 하는 사람이 있었다. 이를 위해 신경 네트워크 모델은 좌표에 대한 정확한 정보 (공간 정보) 없이 원시 자연 원위치 잡교 이미지의 여러 수준에서 개발도상국의 뇌를 훈련시킵니다. 이 기술은 네 가지 발전 단계의 여러 뇌 수준에서 뛰어난 정확성을 달성했다.

편집. 심화 학습의 또 다른 응용 분야는 접합이다. 오려내기는 진핵 생물이 단백질 다양성을 제공하는 주요 요인 중 하나이다. 또한 최근 연구에 따르면' 오려내기 암호' 와 각종 질병의 연결 [3 1] 이 드러났다. 그러나 현대 과학은 여전히 오려내기 조절을 통제하는 메커니즘을 완전히 이해할 수 없다. 스플 라이스 조절의 현대 개념으로는 전사 수준, 특정 신호 조절 시퀀스 요소 (스플 라이스 보강자 또는 침묵 자) 의 존재, 스플 라이스 사이트의 구조 및 스플 라이스 요소의 상태 (예: 특정 사이트의 인산화는 스플 라이스 요소의 활성을 바꿀 수 있음) 가 있습니다. 이러한 모든 요소는 많은 요소와 이들 사이의 복잡한 비선형 상호 작용이 있기 때문에 분석을 복잡하게 만듭니다. 기존 상감 예측 소프트웨어는 입력으로 고통 측정 순서 데이터를 필요로 하며, 원시 판독치가 일반 유전자보다 짧고, 게놈에서 반복 수준이 높고, 가짜 유전자가 존재하는 문제에 직면해 있다. 따라서 스티치 매커니즘의 분석 알고리즘은 매우 느리며 고도로 결합된 컴퓨팅 리소스가 필요합니다. 심도 있는 학습이 개선될 수 있습니다. 5 개의 조직 특이성 RNA-seq 데이터 세트를 사용하는 심도 있는 학습 응용 프로그램에서 게놈 서열과 조직 유형의 특징을 사용하는 숨겨진 변수를 사용하여 DNN 을 개발했으며, 개별 체내와 조직 간 조직 절단에서 현자를 잘라내는 전사 비율 변화를 예측하는 것이 베이시안 방법 (스플라이싱 코드 측정) [32] 보다 낫다는 것이 입증되었습니다.

비코딩 RNA 비코딩 RNA 는 생물학의 또 다른 문제이며 심화 학습과 같은 복잡한 계산 방법이 필요합니다. 암호화되지 않은 RNA 는 전사, 번역, 표관유전학의 조절 [33] 과 관련된 매우 중요하지만, 단백질을 인코딩하는 RNA 와 구별하기는 여전히 어렵다. 짧은 비코딩 RNA 에 대해서는 이 임무가 잘 해결되었지만 lncRNA 에는 여전히 도전적이다. LncRNAs 는 이질적이며 ORF (가상 복제 시작 지점) 와 짧은 단백질 샘플 시퀀스를 포함할 수 있습니다. LncRNAMFDL 이라고 하는 새로운 심도 학습 방법은 lnc-RNAs 를 식별하기 위해 개발되었으며 orf, K 개의 인접한 염기, 2 차 구조 및 예측을 사용하는 코딩 도메인 시퀀스입니다. 이 방법은 Gencode(lncRNA) 및 Refseq (단백질 인코딩 mRNA 데이터) 의 시퀀스 데이터에서 추출한 5 개의 독립 피쳐를 사용하여 인간 데이터 세트에 97. 1% 의 예측 정확도를 생성합니다.

표현형질의 유전자 부위 분석. 마지막으로, 수량성점 (QTL) 분석은 진일보한 연구의 잠재력을 가지고 있다. QTL 분석 감정에는 체중, 약물 반응, 면역반응과 같은 복잡한 다유전자형 변이를 일으키는 다형성의 유전자좌가 포함되어 있다. 유전적 변이를 보여주는 이러한' 특징' 은 주어진 조직 및/또는 조건 하에서 주어진 유전자의 표현이나 변환풍도이다. 표현 QTL(eQTL) 은 전사본의 풍도에 영향을 미치는 유전적 변이점이다. EQTL 분석은 인간의 유전자 표현 조절에 대한 심층적인 이해를 이끌어 냈지만, 그것은 많은 도전에 직면해 있다. 국부 조절 표현의 EQTL (순식 -eQTL) 은 비교적 제한된 수의 통계 테스트를 통해 쉽게 식별할 수 있지만 게놈의 다른 부분인 유전자 표현을 조절하는 역식 -eQTL 은 검출하기 어렵다. 최근에는 물리적 단백질 상호 작용 네트워크, 유전자 주석, 진화 보수성, 부분 시퀀스 정보, ENCODE 프로젝트의 다양한 기능 구성 요소 등 다양한 코딩된 생물학적 특징을 사용하여 trans-eQTL 예측 문제를 해결하기 위한 심층 학습 방법 MSSQTL [35] 이 제시되었습니다. DNN 은 다른 기계 학습 모델보다 우수하며, 각 교차 검증에서 접은 9 개의 DNN 모델을 사용하여 유전자 표현의 제어 프레임워크를 위한 새로운 메커니즘을 제공합니다. 깊이 디코딩 시스템은 trans-eQTL 피쳐 벡터를 클러스터링한 다음 t-SNE 차원 축소 기술을 통해 시각화하는 데도 사용됩니다.

프로테오믹스. 단백질 게놈학은 전사 그룹학에 비해 상당히 발달하지 못한 연구 분야로, 데이터가 적고 분석 계산 방법이 적다. 유사한 신호 코딩 및 전송 메커니즘이 있더라도 인간 proteomics 데이터의 부족과 패턴 생물의 결과를 인간으로의 어려움으로 전환시키는 것은 분석을 복잡하게 만듭니다.

심화 학습은 여러 방면에서 프로테오믹스에 도움이 될 수 있다. 일부 방법은 다른 기계 학습 알고리즘만큼 많은 훈련 사례가 필요하지 않기 때문이다. 심화 학습 방법의 또 다른 장점은 데이터의 계층적 표현을 구축하고 복잡한 상호 작용에서 일반적인 특징을 학습함으로써 프로테오믹스 및 단백질의 네트워크 분석에 도움이 된다는 것입니다. 예를 들어, 인산화 데이터를 사용하여 쌍봉 심도 신념 네트워크는 쥐 세포가 같은 자극에 대한 세포 반응 [36] 을 예측하는 데 사용되었습니다. 개발된 알고리즘은 기존 파이프 라인에 비해 상당히 높은 정확도를 달성했습니다.

구조생물학과 화학. 구조생물학에는 단백질 접기 분석, 단백질 역학, 분자 모델링 및 약물 설계가 포함됩니다. 2 급과 3 급 구조는 단백질과 RNA 분자의 중요한 특징이다. 단백질의 경우 정확한 구조 결정은 효소의 기능, 촉매 센터와 기질 사이의 결합 형성, 면역 기능 (항원 결합), 전사 인자 (DNA 결합) 및 전사 후 변형 (RNA 결합) 을 예측하는 데 중요하다. 적절한 구조를 잃으면 기능이 상실되고, 어떤 경우에는 비정상적인 단백질이 모여 알츠하이머병이나 파킨슨병과 같은 신경 퇴행성 질환을 일으킬 수 있다. [37]

화합물 동원성에 기반한 비교 모델링은 단백질의 2 차 구조를 예측하는 가능한 방법이지만 주석이 좋은 화합물의 수에 의해 제한됩니다. 한편, 기계 학습의 첫 번째 예측은 잘 알려진 구조를 가진 화합물의 인식 패턴을 기반으로 하지만, 그것은 충분히 정확하지 않아 실제로 사용할 수 없다. 0 부터 시작하는 심도 있는 학습 방법을 사용하여 단백질 시퀀싱 데이터를 사용하여 구조 예측 개선 [38]. 마찬가지로, 심층 학습은 별 데이터베이스 데이터와 복잡한 3 단계 방법을 사용하여 2 차 구조 요소와 아미노산 잔기 사이의 접촉과 취향을 예측하는 데 적용되었습니다 [39]. 사용된 방법은 편차 및 높이 가변 데이터를 분석하는 효과적인 도구입니다.

3 차원 구조의 불변성은 기능적으로도 중요하다. 하지만 일부 단백질 종들은 세포주기 제어, 유전자 표현 조절, 분자 신호 전달과 같은 기본적인 생물학적 과정에 참여할 수 있는 독특한 구조를 가지고 있지 않습니다. 게다가, 최근의 연구는 무질서한 단백질의 중요성 [37] 을 보여준다. 많은 종양 유전자 단백질은 비구조적 영역을 가지고 있으며, 잘못 접힌 단백질이 비정상적으로 모여 질병 발전 [40] 을 초래한다. 고정 3 차원 구조가 없는 이 단백질을 고유 무질서 단백질 (IDP) 이라고 하며, 일정한 구조가 없는 도메인을 고유 무질서 영역 (IDR) 이라고 합니다.

많은 매개변수가 IDP/IDR 을 구조화 단백질과 구분하므로 예측 프로세스에 어려움이 있습니다. 이 문제는 심도 있는 학습 알고리즘을 사용하여 해결할 수 있으며, 심도 있는 학습 알고리즘은 다양한 특징을 고려할 수 있습니다. 20 13 년, Eickholt 와 Cheng 은 시퀀스 기반 심도 학습 예측 지표인 DNdisorder 를 발표해 고급 예측 지표 [4 1] 에 비해 무질서한 단백질에 대한 예측을 높였다. 이후 20 15 에서 왕 등은 단백질 구조 예측 임계 평가 (CASP9 및 CASP 10) 의 실험 데이터를 사용하여 IDPs 와 같은 여러 매개변수를 정확하게 예측할 수 있는 새로운 방법을 제시했습니다. DeepCNF 알고리즘은 많은 기능을 사용하여 기준선 싱글헤드 계산 (ab initio) 예측 지표 [42] 보다 성능이 우수합니다.

또 다른 중요한 단백질은 단일 체인 또는 이중 체인 RNA 를 결합한 RNA 결합 단백질이다. 이 단백질들은 RNA 의 다양한 전사 후 손질, 편집, 번역 조절 (단백질 합성) 및 폴리아데노신 산성화에 관여한다. RNA 분자는 다양한 유형의 팔과 링을 형성하며 RNA 와 단백질을 연결하는 2 차 및 3 차 구조를 식별하고 형성해야 합니다. RNA 의 2 차 및 3 차 구조는 예측 가능하며 깊이 신념 네트워크를 적용하여 구조 선호도를 모델링하고 RBP 를 예측하는 데 사용되었습니다 [43]. 실제 CLIP-seq (교차 면역 침전 고통 측정 순서) 데이터 세트에서 심도 있는 학습 프레임워크를 검증하여 원래 시퀀스 및 구조 분포에서 숨겨진 피쳐를 추출할 수 있는 능력을 보여 주고 RBP 의 위치를 정확하게 예측합니다.

약물 발견과 재사용. 전산 약물 생물학과 생화학은 약물 발견, 개발 및 재사용의 거의 모든 단계에 광범위하게 적용된다. 지난 수십 년 동안 여러 연구팀과 회사는 시간과 자원 소비를 줄이기 위해 전 세계적으로 약물 발견과 목표 확장에 대한 컴퓨터 시뮬레이션을 위해 많은 계산 방법을 개발했습니다. 많은 방법 [44] 이 있지만, 어느 것도 최적이 아닙니다 (예: 플럭스 필터나 단백질 카테고리별로 제한될 수 없음). 현재 일부 연구에 따르면 심화 학습은 중요한 고려 방법 (표 1) 입니다.

약물 발견의 중요한 임무 중 하나는 약물 표적의 상호 작용을 예측하는 것이다. 목표 (단백질) 는 일반적으로 기질 또는 조절 분자와 하나 이상의 결합 부위를 가지고 있습니다. 이것들은 예측 모델을 만드는 데 사용될 수 있습니다. 그러나 다른 단백질 성분을 포함하면 분석에 편차가 생길 수 있다. Wang 등은 입력 신경망 쌍 () 을 사용하여 단백질 시퀀스와 표적 분포에서 얻은 특징을 가진 두 개의 전달체를 받아들이는 능력을 사용하여 표적-리간드 상호 작용 [45] 을 계산합니다. 신경망의 이러한 장점은 다른 대표적인 과녁-리간드 상호 작용의 예측 방법보다 더 정확하다.

약물 발견 및 평가는 비싸고 시간이 많이 걸리고 위험합니다. 계산 방법 및 다양한 예측 알고리즘은 위험을 줄이고 자원을 절약하는 데 도움이 됩니다. 잠재적 위험 중 하나는 독성입니다. 예를 들어, 간 독성 (간 독성) 은 약품 생산이 중단되는 흔한 원인이다. 계산법을 통해 간 독성을 예측하는 것은 가능한 간 독성 약물을 피하는 데 도움이 될 수 있다. 심도 있는 학습을 통해 복잡한 코딩 과정 없이 원시 화학 구조를 가진 화합물의 독성 [46] 을 효과적으로 확인할 수 있습니다. CNN 을 사용하면 에폭시 화 등의 성질도 예측할 수 있는데, 이는 높은 반응성과 가능한 독성을 의미한다. 휴스 등은 이번이 처음이다. 단순화 된 분자 입력 라인 입력 사양 (SMILES) 형식의 에폭시 화 분자 및 수산화물 분자의 데이터를 사용하여 음성 제어 [47] 로 사용합니다.

다중 플랫폼 데이터 (다중 그룹 학습). 다중 플랫폼 데이터를 사용할 수 있는 능력은 심도 있는 학습 알고리즘의 주요 장점이다. 생물학은 복잡하고 많은 상호 연관된 원소를 가지고 있기 때문에 유전체학, 표관유전체학, 전사 그룹학 데이터의 시스템 수준 통합은 가장 효과적이고 생물학적으로 의미 있는 결과를 추출하는 열쇠이다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 과학명언) 통합 프로세스는 계산에서 중요하지 않지만 단일 소스 방법에 비해 바이오 마커 특이성과 민감도가 증가한다는 장점이 있습니다.

전산 생물학에서 조합 데이터를 분석해야 하는 주요 분야 중 하나는 표관유전학을 계산하는 것이다. 게놈, 전사 그룹, 메틸화 그룹 특징 및 그룹 단백질 변형의 공동 분석은 정확한 표관 게놈 예측을 제공한다.

일부 연구원들은 여러 소스의 데이터 (표 1) 를 분석하는 심도 있는 학습 방법을 개발했습니다. Tools.genes.toronto.edu/deepbind/는 Alipanahi 등이 개발한 심도 있는 학습 기반 방법으로, 뉴클레오티드 서열이 다양한 질병에서 전사 인자와 RNA 결합 단백질을 결합하는 능력을 계산하고 단일 점 돌연변이가 결합 특성에 미치는 영향을 표상하는 데 사용됩니다. DeepBind 소프트웨어는 CNN 에서 영감을 받아 기술에 민감하지 않습니다. 대신 마이크로 배열에서 시퀀스까지 질적으로 다른 형태의 데이터와 호환됩니다. CPU 구현을 통해 사용자가 컴퓨팅 프로세스를 병렬화할 수도 있습니다 [48]. 또 다른 CNN 기반 어플리케이션에서는 주와 Troyanskaya 가 DeepSEA 프레임워크를 설계하여 염색질 특징을 예측하고 질병과 관련된 시퀀스 변이를 평가했다. 다른 계산 방법과 달리 알고리즘은 각 결합 지점의 대규모 컨텍스트 시퀀스 정보를 캡처하여 처음부터 시퀀스 변형 [49] 에 주석을 달 수 있습니다. 유사한 CNN 파이프를 개발하여 시퀀스 변이가 염색질 조절에 미치는 영향을 밝히고 DNase-seq(DNase I 시퀀싱) 데이터 [50] 를 훈련하고 테스트했습니다. Bassed 라는 심도 있는 학습 소프트웨어는 기준 방법보다 우수하며 모든 데이터 세트에 0.892 의 평균 AUC 를 구현합니다. 마지막으로, 깊이 피쳐 선택 모델이 발전함에 따라 깊이 학습은 활성 보강자 및 프로모터를 식별하는 데 사용됩니다. 이 모델은 DNN 을 이용하여 복잡한 비선형 상호 작용을 모델링하고 고급 광의특징 [5 1] 을 배운다. 이 모델은 다중 플랫폼 데이터에서 피쳐를 선택하고 중요도에 따라 정렬합니다. 이러한 응용 프로그램에서 심화 학습 방법은 더욱 민감하고 강력한 염색질 특성 예측기이며 복잡한 바이오메트릭 표지물을 개발하는 열쇠입니다.

암은 이질적인 질병의 집합체이며, 그 중 일부는 유전자 돌연변이로 인해 발생하므로, 다중 플랫폼 데이터를 사용하여 암을 분류하면 잠재적인 병리 가능성을 밝혀낼 수 있다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 건강명언) 리앙 등은 암 환자를 클러스터링하기 위한 다중 플랫폼 데이터가 있는 심도 있는 신념 네트워크 모델을 개발했습니다 [52]. 제한된 볼츠만 기계는 각 입력 패턴에 정의된 특징을 인코딩하는 데 사용됩니다. 이 방법의 장점 중 하나는 다른 클러스터링 알고리즘과 유전 (생물) 데이터가 모두 정식으로 분산되지 않기 때문에 심도있는 신념 네트워크가 정규 분포 데이터를 필요로 하지 않는다는 것입니다.

마지막으로 자연어 처리의 관점에서 볼 때, 방대한 구조화되지 않은 (연구 출판물 및 특허) 및 구조화 데이터 (예: 유전자 본체 [53] 또는 Chembl[54]) 를 탐색할 때 가설의 합리성을 검증하는 심층적인 학습이 있습니다. 이러한 데이터베이스는 함께 대규모 멀티 플랫폼 데이터 세트를 구성하며, 결합하면 더 풍부하고 포괄적입니다.

결론적으로, 현대 생물 데이터의 방대한 규모는 사람 중심의 분석에 있어서 너무 방대하고 복잡하다. 기계 학습, 특히 심도 있는 학습과 인간 전문 지식의 결합은 여러 대형 멀티 플랫폼 데이터베이스를 완벽하게 통합할 수 있는 유일한 방법입니다. 심도 있는 학습을 통해 인간은 이전에는 상상할 수 없었던 일을 할 수 있다: 백만 입력 이미지 인식, 인간의 능력에 가까운 음성 인식 및 음성 자동화. 심도 있는 학습, 특히 감독되지 않은 심도 있는 학습은 아직 초기 단계에 있지만, 특히 생물학 응용 분야에서는 초기 연구가 생물 데이터의 몇 가지 문제를 극복할 수 있는 유망한 방법입니다. 수백만 개의 간접적이고 상호 연관된 질병의 메커니즘과 방식에 대해 새로운 견해를 제시합니다. 비록 실현에는 제한과 도전이 없지만.