현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 게놈 전체 선택 모델
게놈 전체 선택 모델

GS 모델을 소개하기 전에 먼저 혼합선형모델(MLM)에 대한 이해가 필요합니다. 혼합선형모델은 분산성분모델이므로 다양한 양의 관계가 선형임을 의미한다. 즉, 여러 가지 다른 입력량이 시스템의 응답에 작용한다. 이는 여러 입력의 합과 같습니다(방정식 1).

?= X는 고정 효과 독립 변수의 설계 행렬이고, β는 다음에 해당하는 고정 효과 모수 벡터입니다. 동시에 다음 조건이 충족되어야 합니다. E(y)=Xβ, Var(y)=σ 2 I, y는 정규 분포를 따릅니다.

혼합효과 모형이므로 고정효과와 무작위효과가 모두 포함되어 있습니다. 소위 고정 효과는 성별, 연령, 품종 등과 같이 가능한 모든 등급이나 수준이 알려져 있고 관찰 가능하다는 것을 의미합니다. 소위 랜덤효과(Random Effect)란 모집단에서 표본을 무작위로 추출했을 때 발생할 수 있는 수준을 말하며, 개별 가산효과, 모성효과 등 불확실하다(식 2).

y = , 분산 및 공분산 행렬은 G의 정규 분포 μ ~ N(0,G)입니다. X는 고정 효과의 상관 행렬입니다. Z는 무작위의 상관 행렬입니다. 효과; 그것은 ~N(0,R)입니다. 동시에, Cov(G,R)=0, 즉 G와 R 사이에는 상관관계가 없으며, y의 분산 및 공분산 행렬은 Var(y)=ZGZ+R이 된다고 가정한다. Zμ가 존재하지 않으면 고정 효과 모델입니다. Xβ가 존재하지 않으면 랜덤 효과 모델입니다.

전통적인 선형 모델에서는 선형 관계 외에도 응답 변수에 정규성, 독립성, 분산의 동질성이라는 가정도 있습니다. 혼합선형모형은 기존 선형모형의 정규성 가정을 유지할 뿐만 아니라, 변량의 독립성과 동질성을 요구하지 않아 적용 범위가 확대되어 유전체 선택에 널리 활용되고 있다.

C.R. Henderson은 오래전부터 BLUP(Best Linear Unbiased Prediction)의 통계적 방법을 이론적으로 제안했지만 컴퓨팅 기술의 지연으로 인해 적용이 제한되었습니다. 1970년대 중반까지는 컴퓨터 기술의 발달로 BLUP을 육종에 적용하는 것이 가능해졌습니다. BLUP은 최소제곱법의 장점을 결합한 것으로, 공분산행렬을 알면 동식물 육종의 목표 형질을 분석하는데 이상적인 방법이다.

혼합선형모형에서 BLUP은 랜덤효과에서 랜덤요인을 예측한 것이며, BLUE(Best Linear Unbiased Estimation)는 고정효과에서 고정인자를 추정한 것이다. 고정 효과와 무작위 유전 효과 모두 동일한 방정식 시스템에서 추정할 수 있습니다.

BLUP 방법은 원래 동물 사육에 사용되었습니다. 전통적인 동물 모델은 혈통 정보로부터 구축된 친족 행렬(A 행렬이라고도 함)을 기반으로 혼합 모델 방정식(MME)을 해결하므로 ABLUP이라고 합니다. Henderson이 제안한 MME는 다음과 같습니다.

수식에서 X는 고정 효과 행렬, Z는 무작위 효과 행렬, Y는 관찰 값 행렬입니다.

그 중 R과 G는 다음과 같습니다.

그 중 A는 친족 행렬이므로 수식은 다음과 같이 변환될 수 있습니다.

또한 다음과 같이 변환될 수 있습니다.

연립방정식을 풀어 계산합니다. 잔차 분산과 가산 분산의 분산 성분을 사용하여 고정 요인 효과 값(BLUE)과 무작위 요인 효과 값(BLUP)을 얻을 수 있습니다.

ABLUP은 전통적인 BLUP 방법으로 전적으로 혈통정보를 바탕으로 친족행렬을 구축한 후 육종가치를 계산하는 방법이다. 이 방법은 초기 동물 사육에서 널리 사용되었으며 현재는 기본적으로 단독으로 사용되지는 않는다.

VanRaden은 2008년에 G 매트릭스를 기반으로 한 GBLUP(Genomic Best Linear Unbiased Prediction) 방법을 제안했습니다. G 매트릭스는 모든 SNP 마커로 구성되며 수식은 다음과 같습니다.

GBLUP은 혈통 정보를 바탕으로 구축한 친족 행렬 A를 대체하여 개별 육종 가치를 직접 추정하는 행렬 G를 구축하여 게놈 관계를 구축합니다.

GBLUP 솔루션 프로세스는 G 매트릭스 구성이 다르다는 점을 제외하면 기존 BLUP 방법과 동일합니다. VanRaden의 게놈 관계 구성 G 매트릭스 외에도 다른 G 매트릭스 구성 방법이 있지만 VanRaden이 제안한 방법이 가장 일반적으로 사용됩니다. 예를 들어 Yang 등이 제안한 가중치 기반 G 행렬 계산:

Goddard 등이 제안한 혈통 A 행렬 기반 G 행렬 계산:

현재 , GBLUP은 동식물 육종에 널리 사용되어 왔으며 고효율 및 견고성 등의 장점이 오늘날에도 여전히 인기가 있습니다. GBLUP은 모든 마커가 G 매트릭스에 동일한 효과를 갖는다고 가정하지만 실제 게놈 범위에서는 소수의 마커만이 주 효과를 가지며 대부분의 마커 효과가 작기 때문에 GBLUP은 여전히 ​​개선의 여지가 많습니다.

동물 사육에서는 여러 가지 이유로 혈통 기록과 표현형 정보를 가지고 있는 개체 중 유전자형이 없는 개체가 다수 존재하는 경우가 있는데, 단일 단계 GBLUP(ssGBLUP) 방식은 번식 집단의 문제를 해결하기 위한 것이다. 유전자형이 없는 개체와 유전자형이 있는 개체의 게놈 육종가치를 추정하는 문제.

ssGBLUP은 전통적인 BLUP과 GBLUP을 결합한 것, 즉 혈통 정보를 기반으로 친족 관계 행렬 A와 게놈 관계 행렬 G를 통합하고 새로운 관계 행렬 H를 구축하여 유전자형과 유전자형을 동시에 추정하는 것입니다. 유형 개인의 번식 가치.

H 매트릭스 구성 방법:

수식에서 w는 가중치, 즉 다유전적 유전 효과의 비율입니다.

H 행렬을 구성한 후 MME 솔루션 프로세스는 기존 BLUP의 프로세스와 동일합니다.

유전자형이 분석된 개체에는 가계 기록과 표현형 데이터가 모두 포함되어 있으므로 ssBLUP의 성능이 더 좋은 경향이 있습니다. GBLUP보다 높은 정확도. 이 방법은 현재 동물 사육에서 가장 일반적으로 사용되는 동물 모델 중 하나가 되었습니다.

식물육종에서는 종합적인 혈통정보가 부족한 경우가 많고, 개체군 내 개체의 유전형을 쉽게 판별할 수 있어 널리 활용되지 못하고 있다.

GBLUP에서 공변량을 구성하는 개인 친족 행렬을 SNP 마커로 구성된 관계 행렬로 대체하고 모델을 구축한 후 개인을 예측하는 것이 RRBLUP(Ridge Regression Best Linear) 아이디어입니다. 편견 없는 예측) .

왜 최소제곱법을 사용하지 않는 걸까요? 최소자승법은 마커 효과가 고정된 효과라고 가정하고, 분절 내 모든 SNP에 대해 회귀분석을 수행한 후, 각 분절에서 유의미한 SNP 효과를 더하여 개별 유전체 육종가치를 구하는 방법이다. 이 방법은 다중 선형성과 과적합으로 쉽게 이어질 수 있는 몇 가지 중요한 SNP의 효과만 고려합니다.

RRBLUP은 모든 SNP의 효과 크기를 추정할 수 있는 수정된 최소 제곱법입니다. 이 방법은 마커 효과가 랜덤 효과이고 정규분포를 따른다고 가정하고 선형혼합모형을 이용하여 각 마커의 효과값을 추정한 후, 각 마커의 효과를 더하여 개체별 추정 육종가를 구하는 방법이다.

일반적으로 유전자형 데이터의 마커 수는 샘플 수(p>>n)보다 훨씬 많습니다. RRBLUP은 태그 단위로 계산되기 때문에 GBLUP보다 실행 시간이 길고 정확도도 비슷합니다.

GBLUP은 직접법의 대표적인 것으로, 무작위 효과로 개체를 사용하고, 참조 집단의 유전 정보와 예측 집단을 분산 및 공분산 행렬로 구성하여 친족 행렬을 추정합니다. 반복적인 방법을 통해 분산 성분을 분석한 후 혼합물을 풀어 모델을 통해 예측할 개체의 추정 번식 가치를 구합니다. RRBLUP은 간접법의 대표적인 것으로, 각 마커의 효과값을 먼저 계산한 후, 효과값을 누적하여 육종가치를 구하는 방법이다. 아래 그림은 두 방법의 유사점과 차이점을 비교한 것입니다.

직접 방법은 , 간접 방법은 마커 효과 M 의 합을 추정합니다. K=M'M이고 마커효과 g가 독립정규분포를 따를 때(위 그림과 같이) 두 방법으로 추정한 육종가는 동일 즉 =M이 된다.

BLUP 이론에 기초한 게놈 선택 방법은 모든 마커가 동일한 유전적 변이를 갖는다고 가정합니다. 실제로 소수의 SNP만이 전체 게놈에 영향을 미치며 대부분의 SNP에 영향을 미칩니다. 효과가 없습니다. 마커 효과의 분산이 사전 분포라고 가정하면 모델은 베이지안 접근 방식이 됩니다. 일반적인 베이지안 방법도 Meuwissen(GS를 제안한 사람)에 의해 제안되었으며 주로 BayesA, BayesB, BayesC, Bayesian Lasso 등이 포함되었습니다.

BayesA는 각 SNP가 효과를 가지며 정규 분포를 따르고, 효과 분산은 스케일링된 역 카이제곱 분포를 따른다고 가정합니다. BayesA 방법은 유전학과 관련된 두 가지 매개변수인 자유도 v와 척도 매개변수 S를 가정합니다. MCMC(Markov Chain Monte Carlo 이론)에 Gibbs 샘플링을 도입하여 마커 효과를 계산합니다.

BayesB는 소수의 SNP가 효과를 가지며 효과 분산은 역 카이제곱 분포를 따르며 대부분의 SNP는 효과가 없다고 가정합니다(전체 게놈의 실제 상황에 맞춰). BayesB 방법의 마커 효과 분산의 사전 분포는 혼합 분포를 사용하며, 각 마커 효과와 분산의 완전한 조건부 사후 분포를 구성하기 어렵기 때문에 BayesB에서는 Gibbs와 MH(Metropolis-Hastings) 샘플링을 공동으로 사용합니다. 마커 효과와 분산을 샘플링합니다.

BayesB 방법은 연산 과정에서 매개변수 π를 도입합니다. 마커 효과의 분산이 0일 확률을 π라고 하고, 역 카이제곱 분포를 따를 확률을 1-π라고 가정합니다. π가 1일 때 모든 SNP는 BayesA와 동일한 효과를 갖습니다. BayesB 방법은 유전적 변이가 큰 영향을 미치는 몇 가지 QTL에 의해 제어될 때 더 정확합니다.

BayesB의 매개변수 π는 인위적으로 설정되었으며 결과에 주관적인 영향을 미칩니다. BayesB는 BayesC, BayesCπ, BayesDπ 및 기타 방법으로 최적화됩니다.

BayesC 방법은 π를 알 수 없는 매개변수로 취하고 U(0,1)의 균일 분포를 따른다고 가정하며 효과적인 SNP의 효과 분산이 다르다고 가정합니다. BayesCπ 방법은 BayesC를 기반으로 SNP 효과 분산이 동일하다고 가정하고 Gibbs 샘플링을 사용하여 해결합니다. BayesDπ 방법은 알 수 없는 매개변수 π와 척도 매개변수 S를 계산합니다. S의 사전 분포와 사후 분포는 모두 (1,1) 분포를 따르며 사후 분포에서 직접 샘플링할 수 있다고 가정합니다.

다음 그림은 다양한 방법에 따른 마킹 효과의 분산 분포를 생생하게 보여줍니다.

베이지안 올가미(최소 절대 축소 및 선택 연산자)는 마킹 효과의 분산이 다음을 따른다고 가정합니다. 지수분포의 정규분포, 즉 라플라스 분포. BayesA와 차이점은 라벨링 효과가 다른 분포를 따른다는 것입니다. BayesA는 라벨링 효과가 정규 분포를 따른다고 가정합니다. 라플라스 분포를 사용하면 최대값 또는 최소값이 더 큰 확률로 발생할 수 있습니다.

위의 다양한 베이지안 방법을 보면 베이지안 방법의 초점과 어려움이 하이퍼파라미터의 사전 분포에 대한 합리적인 가정을 어떻게 설정하는가에 있다는 것을 알 수 있습니다.

BLUP 방법에 비해 Bayes 모델은 추정해야 할 매개변수가 더 많은 경우가 많아 예측 정확도가 향상될 뿐만 아니라 계산량이 더 많아집니다. MCMC에는 수만 번의 반복이 필요하며 각 반복에는 모든 마커 효과 값의 재평가가 필요합니다. 이 프로세스는 연속적이고 병렬화할 수 없으며 많은 양의 컴퓨팅 시간을 소비하므로 강력한 동물 및 식물 육종 관행에 적용이 제한됩니다. 시간에 민감한 요구 사항.

컴퓨팅 속도와 정확성을 높이기 위해 많은 학자들이 Bayes 방법의 선험적 가정과 매개변수를 최적화하여 fastBayesA, BayesSSVS, fBayesB, emBayesR, EBL, BayesRS, BayesTA 등을 제안했습니다. 그러나 가장 일반적으로 사용되는 베이지안 방법은 여전히 ​​위와 같습니다.

다양한 모델의 예측 정확도는 모델 가정이 예측된 표현형의 유전적 구성에 적합한지 여부에 따라 크게 달라집니다. 일반적으로 매개변수 조정 후 베이지안 방법은 BLUP 방법에 비해 정확도가 약간 높지만 연산 속도와 견고성은 BLUP만큼 좋지 않습니다. 그러므로 우리는 장단점을 잘 따져보고 자신의 필요에 따라 합리적인 선택을 해야 합니다.

BLUP 및 Bayes 이론을 기반으로 한 매개변수 해결 방법 외에도 게놈 선택에는 반모수적 방법(예: RKHS, 다음 기사 참조) 및 비모수적 방법(예: 기계 학습(ML))도 포함됩니다. 머신러닝은 관찰된 개인의 알려진 속성(특징)과 결과(레이블이 있는 데이터) 결과에 매우 유연한 알고리즘을 적용하여 관찰되지 않은 개인(레이블이 없는 데이터)을 예측하는 데 중점을 두는 인공 지능의 한 분야입니다. 결과는 연속형, 범주형 또는 이진형일 수 있습니다. 동식물 육종에서 라벨이 붙은 데이터는 유전자형과 표현형이 있는 훈련 집단에 해당하고, 라벨이 없는 데이터는 테스트 집단에 해당하며 예측에 사용되는 특성은 SNP 유전자형입니다.

전통적인 통계 방법과 비교할 때 머신러닝 방법에는 많은 장점이 있습니다.

SVM(Support Vector Machine)은 일반적인 비모수적 방법이자 지도 학습 방법입니다. 분류 문제와 회귀 분석을 모두 해결할 수 있습니다. SVM은 구조적 위험 최소화 원칙을 기반으로 하며 모델 피팅 및 샘플 훈련의 복잡성을 고려합니다. 특히 우리가 자신의 인구 데이터에 대해 충분히 알지 못하는 경우 SVM은 게놈 예측을 위한 대체 방법이 될 수 있습니다.

SVM의 기본 아이디어는 훈련 데이터 세트를 올바르게 분할하고 가장 큰 기하학적 간격을 가질 수 있는 분리 초평면을 해결하는 것입니다. SVR(Support Vector Regression)에서는 일반적으로 SVM과 같이 최적 분리 초평면과 서포트 벡터 사이의 마진 대신 근사 오류가 사용됩니다. ε이 둔감 영역의 선형 손실 함수라고 가정하면 측정값과 예측값이 ε보다 작을 때 오류는 0이 됩니다. SVR의 목표는 경험적 위험과 가중치의 제곱 노름을 동시에 최소화하는 것입니다.

즉, 경험적 위험을 최소화하여 초평면을 추정합니다.

아래 그림 1은 SVM의 회귀(그림 A)와 분류(그림 B)의 차이를 비교합니다. 공식에서 ξ와 ξ*는 여유 변수이고, C는 사용자 정의 상수, W는 가중치 벡터 놈, ?는 특징 공간 매핑을 나타냅니다.

예측 분석에 SVM을 사용하면 대규모 고차원 데이터 세트로 인해 계산이 매우 복잡해집니다. 커널 함수를 적용하면 내적을 크게 단순화하여 차원의 저주를 해결할 수 있습니다. 따라서 학습 샘플의 분포 특성을 고려해야 하는 커널 함수의 선택이 SVM 예측의 핵심입니다. 현재 가장 일반적으로 사용되는 커널 함수는 선형 커널 함수, 가우스 커널 함수(RBF), 다항식 커널 함수 등입니다. 그중 RBF는 넓은 적응성을 가지며 (적절한 너비 매개변수를 사용하여) 모든 훈련 샘플 분포에 적용할 수 있습니다. 때때로 과적합 문제가 발생하기는 하지만 여전히 가장 널리 사용되는 커널 함수입니다.

앙상블 학습은 기계 학습에서 가장 일반적인 알고리즘 중 하나이기도 합니다. 일련의 학습자를 통해 학습하고 특정 규칙을 사용하여 학습 결과를 통합하여 단일 학습자보다 더 나은 결과를 얻습니다. 평신도의 관점에서 보면 약한 학습자들이 결합되어 강력한 학습자가 되는 것입니다. GS 분야에서는 RF(Random Forest)와 GBM(Gradient Boosting Machine)이 널리 사용되는 두 가지 통합 학습 알고리즘입니다.

RF는 의사결정트리를 기반으로 한 앙상블 방식으로, 여러 개의 의사결정트리를 포함하는 분류기입니다. 게놈 예측에서 RF는 SVM과 마찬가지로 분류 모델 또는 회귀 모델로 사용될 수 있습니다. 분류에 사용되는 경우, 모집단 내 개체를 표현형 값에 따라 미리 구분해야 한다는 점에 유의하시기 바랍니다. RF 알고리즘은 다음 단계로 나눌 수 있습니다.

마지막으로 RF는 예측을 위해 분류 트리 또는 회귀 트리의 출력을 결합합니다. 분류에서 관찰되지 않은 클래스는 투표 수를 계산하고(일반적으로 의사결정 트리당 하나의 투표 사용) 투표 수가 가장 높은 클래스를 할당하여 예측됩니다. 회귀에서는 ntree 출력을 평균합니다.

RF 모델의 결과에 영향을 미치는 두 가지 중요한 요소가 있습니다. 하나는 각 노드에서 무작위로 샘플링된 공변량의 수(mtry, SNP 수)입니다. 회귀 트리를 작성할 때 mtry의 기본값은 p/3입니다(p는 트리를 작성하기 위한 예측 수). 분류 트리를 작성할 때 mtry는 [이미지 업로드 실패...(image-10f518-1612450396027)]입니다. 두 번째는 의사결정 트리의 수입니다. 많은 연구에 따르면 나무를 많이 심는 것이 항상 좋은 것은 아니며, 닥나무를 심는 데에도 시간이 많이 걸립니다. GS를 식물 육종에 적용할 때 RF의 ntree는 일반적으로 500-1000 사이로 설정됩니다.

GBM이 결정 트리를 기반으로 하는 경우 GBDT(Gradient Boosting Decision Tree)는 RF와 마찬가지로 여러 결정 트리를 포함합니다. 하지만 둘 사이에는 많은 차이점이 있습니다. 가장 큰 차이점은 RF가 배깅 알고리즘을 기반으로 한다는 것입니다. 즉, 여러 결과에 투표하거나 단순히 평균을 계산하여 최종 결과를 선택합니다. GBDT는 원래 모델의 단점을 보완하기 위해 각 반복 단계에서 약한 학습기를 구축하는 부스팅 알고리즘을 기반으로 합니다. GBM은 다양한 손실 함수를 설정하여 다양한 학습 작업을 처리합니다.

많은 연구에서 다양한 고전적인 기계 학습 알고리즘을 게놈 예측에 적용하려고 시도했지만 향상된 정확도는 여전히 제한적이고 시간이 많이 걸립니다. 수많은 기계 학습 알고리즘 중에서 보편적으로 예측 가능성을 향상시키는 단일 방법은 없으며 다양한 응용 프로그램과 최적의 방법 및 매개 변수가 다릅니다. 기존 기계 학습 알고리즘과 비교할 때 딥 러닝(DL)은 향후 게놈 예측에 더 나은 선택이 될 수 있습니다.

SVM과 같은 전통적인 기계 학습 알고리즘은 일반적으로 얕은 모델입니다. 딥러닝에는 입력 및 출력 레이어 외에도 여러 개의 숨겨진 레이어가 포함되어 있습니다. 모델 구조의 깊이는 이름의 의미를 설명합니다. DL의 본질은 수많은 히든 레이어와 방대한 학습 데이터로 머신러닝 모델을 구축해 더 유용한 특징을 학습해 궁극적으로 분류나 예측의 정확도를 높이는 것입니다.

DL 알고리즘의 모델링 과정은 간단히 다음 세 단계로 나눌 수 있다.

GS 분야에서는 MPL(Multi-Layer Perceptron), Convolutional Neural Network 등 더 많은 DL 알고리즘이 연구되어 왔다. 컨볼루션 신경망(CNN) 및 순환 신경망(RNN) 등

MLP는 여러 입력 데이터 세트를 단일 출력 데이터 세트로 매핑하는 피드포워드 인공 신경망(ANN) 모델입니다. MLP에는 아래 그림 2와 같이 하나 이상의 숨겨진 레이어가 포함되어 있으며, 입력 레이어와 출력 레이어 외에도 4개의 히든 레이어가 포함되어 있습니다. 각 레이어는 이전 레이어의 노드에 연결되며 서로 다른 가중치(w)를 갖습니다. ), 마지막으로 활성화 함수를 통해 변환되어 입력을 출력으로 매핑합니다.

CNN은 컨볼루션 계산을 포함하고 심층 구조를 갖는 일종의 피드포워드 신경망입니다. 일반적으로 표현 학습 기능이 있으며 계층 구조에 따라 입력 정보의 변환 불변 분류를 수행할 수 있습니다. CNN의 히든 레이어에는 Convolutional 레이어, Pooling 레이어, Fully-connected 레이어의 세 가지 유형이 있으며 각 유형에는 서로 다른 기능이 있습니다. 예를 들어 Convolutional 레이어의 주요 기능은 풀링 레이어입니다. 완전 연결 계층은 ANN의 숨겨진 계층과 유사하며 일반적으로 CNN 숨겨진 계층의 끝에 위치하며 완전 연결 계층에만 신호를 전송합니다. 연결된 레이어. CNN 구조는 아래 그림 3에 나와 있습니다.

딥러닝은 만병통치약이 아니라는 점에 유의해야 합니다. DL을 사용하기 위한 전제 조건은 충분히 크고 고품질의 훈련 데이터 세트를 보유하는 것입니다. GS의 동식물 연구에 따르면 일부 DL 알고리즘은 기존 게놈 예측 방법에 비해 뚜렷한 이점이 없습니다. 그러나 DL 알고리즘이 비선형 패턴을 더 효과적으로 포착할 수 있다는 일관된 증거가 있습니다. 따라서 DL은 다양한 소스의 데이터를 기반으로 GS 전통 모델을 통합하여 보조 육종을 수행할 수 있습니다. 즉, 향후 대규모 육종 데이터에 직면하여 DL의 적용은 점점 더 중요해질 것입니다.

위 내용은 GS에서 흔히 사용되는 예측 모델로, 분류 방법에 따라 다를 수 있습니다. 위에서 언급하지 않은 더 중요한 방법에 대한 간략한 소개는 다음과 같습니다. 그 중 일부는 위의 세 가지 범주의 방법을 확장한 것입니다.

RKHS(Kernel Hilbert Space) 재현은 일반적인 반모수적 방법입니다. 가우스 커널 함수를 사용하여 다음 모델에 적합합니다.

RKHS 모델은 베이지안 프레임워크의 Gibbs 샘플러 또는 혼합 선형 모델을 사용하여 풀 수 있습니다.

GBLUP은 여전히 ​​동식물 육종에 널리 사용되는 방법으로, 모든 마커가 동일한 효과를 갖는다고 가정합니다. 그러나 실제 상황에서는 유전적 관계 매트릭스를 추정하는 데 사용되는 목표 특성과 관련되지 않은 모든 마커가 QTL의 효과를 희석시킵니다. 많은 연구에서 몇 가지 주요 아이디어로 이를 개선했습니다.

위의 아이디어에 따라 sBLUP(Progressively Exclusive Relationship BLUP, SUPER BLUP) 방법은 TABLUP을 다음과 같은 몇 가지 유전자 제어 특성으로 더욱 구체화합니다. 유전자형 관계 매트릭스는 형질과 관련된 마커만을 사용하여 구성됩니다.

친족 행렬에서 그룹 구조의 영향을 고려하려면 유전적 관계의 유사성에 따라 개인을 그룹화한 다음 압축된 그룹을 공변량으로 사용하여 원래 개체를 대체할 수 있습니다. 그룹 내 개인의 친족 관계는 동일합니다.

따라서 게놈 관계 행렬을 구축할 때 개인의 값을 그룹의 유전적 효과 값으로 대체할 수 있으며, 이를 예측에 사용하는 것이 cBLUP(Compressed BLUP)이다.

위의 아이디어는 모두 검증된 사이트와 새로 발견된 사이트를 모델에 통합하는 것을 언급했습니다. 이러한 사이트는 어디에서 왔습니까? 가장 일반적인 소스는 GWAS(Genome Wide Association Study)입니다. GS와 GWAS 사이에는 자연스러운 연관성이 있습니다. GWAS의 중요한 연관 사이트를 GS로 가져 가면 여러 세대에 대한 예측 능력을 유지할 수 있다는 직접적인 이점이 있고 확인된 돌연변이의 수를 늘릴 수 있다는 간접적인 이점이 있습니다.

아래 그림은 GWAS를 이용한 게놈 예측의 다양한 방법을 비교합니다. a는 소수의 주요 효과 부위만 사용하는 분자 마커 보조 선택 방법(MAS)을 나타내고, b는 모든 마커를 사용하고 동일한 마커 효과를 갖는 고전적인 GS 방법을 나타내며, c는 가중치에 따라 마커를 할당합니다. 상관 마커 고정 효과로 처리됩니다. e는 유의하게 연관된 마커를 다른 무작위 효과(자체 커널이 파생됨)로 처리합니다. f는 염색체를 세그먼트로 나누고 각 세그먼트에 의해 구성된 G 매트릭스는 다른 무작위 효과에 할당됩니다.

GWAS를 이용한 게놈 예측의 결과는 더 복잡할 것입니다. 단순히 모델에 대한 연관 신호를 고려한다고 해서 특정 성능이 반드시 특성의 유전적 구성과 관련되어야 하는 것은 아닙니다.

GS는 유전적 영향을 추정하기 위한 두 가지 전략을 가지고 있습니다. 하나는 번식 가치를 추정하고 부모로부터 자손에게 추가적인 효과를 전달하는 데 초점을 맞추는 것입니다. 반면, 비부가 효과(예: 우성 효과 및 상위 효과)는 특정 유전자형과 관련되어 있으며 직접 유전될 수 없습니다. 분산 성분을 추정할 때 비가산 효과는 무작위 환경 효과와 함께 잡음으로 처리되는 경우가 많습니다. 또 다른 전략은 가산 효과와 비가산 효과 모두에 초점을 맞추고 하이브리드 활력을 탐구하는 데 자주 사용됩니다. 잡종 활력은 일반적으로 우성 효과와 상위 효과의 결과로 생각됩니다. 따라서 비가산 효과가 중요하고 이를 무시하는 경우 유전적 추정치는 편향될 것입니다.

잡종강세의 활용은 식물육종, 특히 벼, 옥수수 등 주요 식량작물에 있어서 중요한 연구주제이다. 잡종 예측을 위해 GS 모델에 비가산적 유전 효과를 적용하는 것도 작물 육종의 게놈 예측에서 현재 뜨거운 주제 중 하나입니다.

물론, 이종 효과의 구성은 특성에 따라 달라지며, 다양한 특성에 대한 게놈 예측은 이종 QTL 사이트의 식별과 결합되어야 합니다. 일반 결합 능력 GCA(상가 효과 반영)와 특수 결합 능력 SCA(비상가 효과 반영)는 서로 다른 유전적 효과에서 비롯될 수 있으므로 잡종 F1을 예측할 때 GCA와 SCA를 각각 고려해야 합니다. GCA 모델은 GBLUP을 기반으로 하며 유전자형 친족 행렬 구성에 중점을 둘 수 있습니다. SCA 모델에는 두 가지 방법이 있습니다. 하나는 이종 SNP 사이트 패널을 GBLUP 모델에 고정 효과로 통합하는 것이고, 다른 하나는 베이지안 및 기계 학습 방법과 같은 비선형 모델을 사용하는 것입니다. 기계 학습 및 일반 통계 모델은 가법적 모델에서 유전성이 중간 및 낮은 특성에 대해 상대적으로 일관되는 ​​것으로 보고되었습니다. 그러나 비가산 모델에서는 기계 학습 방법이 더 나은 성능을 발휘합니다.

전통적인 GS 모델은 종종 단일 환경에서 단일 표현형 특성에만 초점을 맞추고 실제 상황에서 여러 특성이나 여러 환경 간의 상호 관계를 무시합니다. 일부 연구에서는 여러 특성이나 여러 환경을 동시에 모델링하여 게놈 예측의 정확성을 향상시킬 수도 있습니다. 다특성(MT) 모델을 예로 들면 다변량 모델(MV)은 다음 공식으로 표현될 수 있습니다.

다특성 선택은 일반적으로 특성 간의 어느 정도 일치를 달성하기 위해 사용됩니다. . 유전적 구조, 즉 유전적으로 관련되어 있습니다. 이는 유전성이 낮은 형질(유전성이 높은 형질과 관련됨)이나 측정하기 어려운 형질에 특히 유용합니다.

작물의 환경조건은 동물처럼 통제하기가 쉽지 않으며 대부분의 형질은 양적형질로 환경에 쉽게 영향을 받는다.

다중환경(ME) 실험이 중요한 역할을 해왔고, 유전자형과 환경 사이의 상호작용(Genotype by E nvironment, G × E) 또한 현재 게놈 선택의 초점이 되고 있습니다.

GBLUP 외에도 다변수 모델은 베이지안 프레임워크의 선형 회귀를 기반으로 하거나 비선형 기계 학습 방법을 기반으로 할 수도 있습니다.

우리는 유전자가 전사, 번역 및 일련의 규정을 거쳐 최종적으로 표현형 특성에 반영될 수 있다는 것을 알고 있으며, 이는 표현형 사건의 잠재력을 어느 정도만 반영할 수 있습니다. 멀티오믹스 기술의 발전과 함께 게놈 예측을 위한 멀티오믹스 데이터의 통합도 현재 GS 연구의 중요한 방향이다.

식물 육종에서는 게놈 외에 전사체학(transcriptomics)과 대사체학(metabolomics)이 현재 GS에서 상대적으로 자주 연구되고 있는 두 가지 오믹스 그룹입니다. 전사체는 형질과 유전자 발현 수준을 연관시키고 예측하는 반면, 대사체는 형질과 표현형을 조절하는 소분자의 함량을 연관시키고 예측합니다. 일부 특정 형질의 경우 예측 능력이 향상될 수 있습니다. 가장 좋은 방법은 각 그룹의 데이터를 동시에 모델에 통합하는 것이지만, 이렇게 하면 모델의 복잡성이 크게 증가하게 됩니다.

표현형 결정의 정확성은 모델 구성에 직접적인 영향을 미칩니다. 일부 복잡한 특성의 경우 시각적 관찰만으로 기록하는 것은 더 이상 권장되지 않으며 표현형 조사는 시간이 많이 걸리고 힘들며 비용이 많이 듭니다. 따라서 높은 처리량 표현형 분석은 GS 개발의 중요한 방향이기도 합니다. 표현형의 범위는 매우 넓습니다. 개별 특성을 쉽게 측정할 수 없는 경우에는 단백질체, 대사체 및 기타 데이터와 같은 다중 오믹스 데이터를 대신 사용할 수도 있습니다.

비용 효율성 문제를 고려할 때, 멀티 오믹스 기술은 아직 동식물 육종 분야의 연구 단계이지만 향후 적용 방향을 제시합니다.