현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - GWAS 모델 및 GS 모델 소개 및 비교
GWAS 모델 및 GS 모델 소개 및 비교
최근 통계 유전체학에 관한 자료를 많이 보고 자신이 이해한다고 생각했지만, 사실 강요당했다. 정말 통계학의 기초가 너무 나빠서 이해할 수 없을 것 같고, 그럴듯하기 때문이다. 당신의 이해를 기록하고 가볍게 살포해 주세요.

GWAS 는 표현형과 유전자형 사이의 상관관계 분석이지만, 이런 상관관계는 어떤 통계 방법을 사용합니까?

GWAS 모델 개발;

실제 비율이 예상한 분리 비율에 부합하는지, 맞지 않으면 이 유전자가 표형과 관련이 있다고 생각한다. 계산량이 크다.

먼저 유전자와 표형의 상관도 (예: 피어슨) 를 계산한 다음 R 을 T 값으로 변환하여 T 검사를 한다. 계산량이 적다.

유전자형 x 와 표현형 y 가 직접 회귀, 즉 y = x b+e 입니다.

여기서 Y 는 표형이고, X 는 SNP, Q 행렬 및 총 평균의 종합 변수이며, E 는 잔차입니다.

GLM 모델에서 두 가지 형태가 매우 다르지만 집단 자체에 다른 유전적 차이 (예: 지역 등) 가 포함되어 있는 경우 ), 이런 표현형과 무관한 유전적 차이도 상관관계에 영향을 미친다. MLM 모델은 인구 구조의 영향을 공분산으로 설정하고 이 궤적을 수정할 수 있습니다. 또한 재질 간 공통 조상 관계는 비체인 관계로 이어질 수 있으며, 친연 관계 매트릭스를 무작위 효과로 추가하여 수정할 수 있습니다. 즉, y=Xb+Zu+e, Z 는 친연 관계 행렬, U 는 개인 육종 값, 기타 GLM 입니다.

GLM 은 고정 효과 모델입니다. MLM 은 고정 효과 외에도 무작위 효과, 즉 친족 매트릭스를 추가합니다. 고정효과란 제한적이고, 통제하기 쉬우며, 수평적 영향에 초점을 맞추고 있다. 그러나 임의 효과에는 수준 뒤의 그룹 (예: 평균, 분산 등) 과 관련된 여러 수준이 있습니다. ).

이해할 수 있고 표현할 수 없는 느낌이 있다. 나는 바이두를 한번 해봤는데, 설명할 수 있을 것 같다: 무작위 효과 모델.

MLM 수정은 너무 엄격하여 실제로 관련된 SNP 표시를 걸러내기 때문에 CMLM 모델의 목적은 가짜 음성 SNP 표시를 다시 감지하는 것입니다.

이 방법은 개체를 친연 관계의 유사성에 따라 그룹화한 다음, 압축된 집단으로 원래의 개체를 공변수로 대체하는 것이다. 집단 내 개인의 유전 관계는 같다.

문제는 CMLM 이 유전 관계 매트릭스를 계산하기 위해 어떤 SNP 를 선택해야 하는가 하는 것이다. 대답은 모든 표현형 관련 SNP (감지된 SNP 제외) 를 사용하여 친연 관계 매트릭스를 구축하는 것이 가장 좋다는 것이다. 이것이 바로 Super (단계적 배타적 관계 아래의 왕권 결제) 다.

QTN (양적 특성 SNP) 은 QTL 을 제어하는 SNP 입니다.

GWAS 병목 현상은 계산 속도와 통계적 정확도입니다. FarmCPU 는 속도와 정확도를 향상시킬 수 있습니다. 먼저 무작위 효과의 친족 행렬을 고정 효과의 연관 SNP 행렬 (S 행렬 /QTNs 행렬) 으로 변환하여 계산 속도를 크게 높입니다. 둘째, QTN 행렬을 공변수로 사용하여 관련 분석을 다시 수행하여 정확도를 높입니다.

SUPER 와 FarmCPU 는 모두 bin (예: 10kb) 을 단일 SNP 가 아닌 SNP 단위로 사용합니다.

Blink 는 GWAS 의 고급 버전이며 속도와 정확성을 높이기 위한 것입니다. 다음 그림과 같이 먼저 위의 GLM 모델을 사용하여 qtn 을 얻은 다음 오른쪽 GLM 을 공변수로 SNP 를 감지하고 결과 SNP 는 LD 정보를 기준으로 qtn 정보를 결정합니다 (실제 염색체 위치에 따라 해당 bin 크기를 선택). 또한 왼쪽의 GLM 은 BIC (Bayesian Information Criterion, Bayesian Information Criterion) 정책을 통해 qtn 의 정확성을 감지하고, 허위 부분을 제거하고, 실제 qtn 을 보존하고, 모든 관련 SNP(qtn) 가 감지될 때까지 이 프로세스를 계속 반복합니다.

모델 요약:

이것은 장지무의 통계 유전체학 과정을 기초로 한 것이기 때문에 그들의 연구팀이 개발한 모델에 초점을 맞추고 있다.

GWAS 공통 소프트웨어:

GS 모델 개발;

표형을 통제하는 유전자의 수가 상대적으로 적고 유전력이 상대적으로 높을 때 소량의 표시로 표형을 잘 예측할 수 있다.

개인 유전 관계를 이용하여 공분산 행렬을 구성한 다음 개인 육종 값에 따라 표형을 예측한다.

GBLUP 에 구축된 공변수의 유전 관계 매트릭스를 SNP 태그로 구성된 관계 행렬로 대체하고 모델을 만든 다음 개인을 예측하는 것이 rrBLUP 의 아이디어입니다.

즉 모델 y=Xb+Zu+e 를 y=Xb+Ms+e 로 변경합니다.

여기서 M 은 SNP 가 구축한 행렬 (대체 개인 친족 행렬 Z) 이고 S 는 표시 (대체 개인 U) 입니다.

RrBLUP 은 모든 표시 효과가 정규 분포와 일치하고 표시 효과의 분산 (2) 이 동일하며 유전자의 실제 효과 값과 일치하지 않을 수 있다고 가정합니다.

이때 베이시안 분석 방법을 도입했다. 표현형을 통제할 것으로 예상되는 유전자의 수는 알 수 없고, 유전자 효과 값 분포는 알 수 없다. BayesianA, B, C, C, C, LASSO 등과 같은 다양한 베이시안 모델은 유전자의 수와 유전자 효과 값의 분포에 따라 구축됩니다.

차이점은 주로 마킹 효과가 동일한 분포와 일치하는지 여부입니다. 모든 태그에 효과 값이 있는지 여부 라벨 효과의 분산은 어떤 분포를 따르는가?

서로 다른 베이시안 모델의 가설과 분포는 이전 트윗을 참고할 수 있다. # GS 문헌 게놈 선택 기술이 농업동물 육종에 사용된다.

서로 다른 베이시안 방법은 그래픽으로 시각적으로 표현되며, 아래 그림의 은 표시없는 효과의 비율을 나타냅니다.

릿지 회귀에서 모든 마커 효과의 분산은 동일합니다. 베네치아 A 는 모든 마커에 효과 분산이 있지만 표시마다 효과 분산이 다르다는 것을 의미합니다. 베이지안 b 부분은 유효 분산을 표시하고 동시에 차이가 있습니다. 베이지안 C π는 분산이 있는 부분 표시 효과로, 모든 분산이 같다.

GS 는 일반적으로 무료 오픈 소스 r 패키지를 사용합니다.

GWAS 가 MLM 차종과 그 고급 버전을 사용한다면 실제로는 GS 와 같은 차종이다.

GWAS 는 고정 효과 Xb 에 초점을 맞추고, 무작위 효과를 추가하는 것은 표현형 현저하고 관련된 부위의 위양성을 통제하기 위한 것일 뿐이다. (주: GWAS, GWAS, GWAS, GWAS, GWAS) GS 는 육종 가치 계산에 중점을 두고 무작위 효과 Zu 에 초점을 맞추고 있으며, 고정 효과는 다른 개인을 통제하는 동일한 부분입니다.

두 가지 방법은 모델은 같지만 적용 방향이 다르기 때문에 다른 기술로 간주되는 것은 사실 같은 일이다. 예를 들어 GWAS 를 사용하여 중요한 사이트를 찾은 다음 GS 의 고정 효과에 추가하면 예측이 더 정확해질 수 있습니다. 또는 라벨이 너무 많아서 관련이 없는 태그를 필터링하지 않고 GWAS 결과와 결합하여 필터링할 수 있습니다.

GS 와 GWAS 의 결합에서 SSGBLUP, GS+ 재GWAS, GS+ 역사 GWAS 등과 같은 모델과 알고리즘이 등장했습니다.

확인:

장지무 씨가 우리를 위해 개발한 최신 자습서와 도구에 감사드리며, 장범의 교과 과정 총결산에 감사드립니다. 자습서 PPT 참조: # # 통계 유전체학: 2020