현재 위치 - 법률 상담 무료 플랫폼 - 컨설팅 회사 - 인구 구조-계통 발생 나무의 구축
인구 구조-계통 발생 나무의 구축
요즘 잡일이 정말 꽉 차서, 마침내 업데이트 할 시간이 생겼다. 。 。 。

이전 문장 소개를 통해 진화 나무의 기본 개념을 이미 잘 알고 있는데, 어떻게 믿을 수 있는 진화 나무를 얻을 수 있을까?

집단 유전 분석의 경우, 일반적으로 집단 SNPs 사이트 데이터를 기반으로 시스템 발육 트리를 구축한다. 그래서 저는 주로 SNPs 데이터를 예로 들어 진화 나무를 만드는 방법을 소개하겠습니다.

시퀀스 일치->; 나무 선택 방법-> 최적 대체 모델 계산->; 계통 발생 나무 설립->; 진화 나무를 미화하다.

일반적인 시퀀스 비교 소프트웨어에는 Clustal 과 Muscle 이 있습니다.

Clustal 에는 자체 독립 소프트웨어 (다양한 운영 체제 지원) 가 있을 뿐만 아니라 Bioedit 및 MEGA 와 같은 일반 소프트웨어에 자주 통합됩니다.

Muscle 은 또한 다양한 운영 체제를 지원합니다.

두 소프트웨어 모두 인용 빈도가 매우 높아서 절대적인 사람은 없고, 누가 좋고, 누가 나쁘고, 어느 것이 편리하든지 사용할 수 있다.

1, 거리 기반 방법 거리 방법:

거리 기반 방법: 먼저 종간 비교를 통해 일정한 가설 (진화 거리 모델) 에 따라 분류군 간 진화 거리를 추론해 진화 거리 행렬을 구축한다. 진화 나무의 구축은 이 행렬의 진화 거리 관계에 기반을 두고 있다.

2. 문자 기반 방법 특성 방법:

피쳐 기반 방법: 시퀀스 사이의 거리를 계산하는 대신 시퀀스의 다른 부위를 별도의 피쳐로 간주하고 해당 피쳐를 기반으로 트리를 구성합니다.

모델 선택 기준은 다음과 같습니다.

UPGMA 방법은 이미 비교적 적게 사용되었다. 일반적으로 모델이 맞으면 ML 의 효과가 더 좋습니다. 관련 시퀀스의 경우, 어떤 사람들은 MP 를 좋아한다. 왜냐하면 그것이 가장 적은 가설을 사용하기 때문이다. MP 는 일반적으로 원거리 시퀀스에 사용되지 않으며 일반적으로 NJ 또는 ML 을 사용합니다. 유사성이 낮은 시퀀스의 경우 NJ 에서 긴 가지 유치 (LBA) 가 자주 발생하며, 때로는 진화 나무의 건설을 심각하게 방해할 수 있다. 베이시안 방법이 너무 느리다. 다양한 방법으로 분자 시스템 트리를 구축하는 정확도에 대해 요약 (Hall BG, 2005) 은 베이시안 방법이 가장 좋다고 생각하며, 그 다음은 ML 과 MP 입니다. 사실, 시퀀스의 유사성이 높으면 모든 방법이 좋은 결과를 얻을 수 있으며 모델 간의 차이도 크지 않습니다. 하지만 NJ 는 현재 문장 내에서 널리 사용되는 ML 모델입니다.

시스템 발육 분석에서 최대 우도 방법 (ML) 과 베이시안 방법 (BI) 은 대체 모델에 매우 민감한 두 가지 알고리즘입니다. 따라서 대체 모델의 선택은 ML 또는 BI 방법을 사용하여 시스템 개발 트리를 재구성하기 전에 필수적입니다.

Win 운영 체제에서 jModelTest 사용에 대해서는 이 문장, 즉 장홍뢰의 jModeltest 뉴클레오티드 대체 모델의 선택을 예를 들어 설명해 주세요.

PROTECT 사용에 대해서는 이 문장: PROTECT 를 사용하여 최적의 아미노산 대체 모델을 선택하십시오.

나는 기본적으로 Linux 버전의 jModelTest 를 사용했는데, 사용하기에 매우 간단하다. 이러한 명령은 다음과 같습니다.

매개변수 설명:

-d: 파일 가져오기. 똑바로 서다! 이 소프트웨어는 파일을 입력해야합니다. Phy 형식, 아닙니다. Fasta 형식.

-f: 기본 주파수가 다른 모델 포함

-g: 다른 위치 및 범주 수를 포함하는 비율 변경 모델

-i: 비율 변경 사이트가 있는 모델 포함

-s: 대체 솔루션 수

-v: 모델 평균 및 매개 변수 중요성 수행

-a: 각 유효 기준에 대한 모델 평균 시스템 개발 추정

--BIC: 베이지안 정보 계산 기준

-AIC: 레드 풀 정보 표준 계산

결과의 맨 아래에는 점수가 가장 높은 차종이라는 그림 목록이 있다.

최적의 모델을 계산한 후, 우리는 성적을 내기 시작했다. ML 트리 구축의 경우 차세대 RAXML-RAXML-NG 를 사용하는 것이 좋습니다.

RAxML 은 독일 하이델베르그 이론연구소의 Alexandros Stamatakis 에서 개발한 ML 트리 구축의 고전적인 도구였습니다. 최근 몇 년 동안 강호의 지위도 다른 소프트웨어, 특히 IQ-Tree 의 도전을 받았다. 주 () 등의 문장' 지능형 시스템 개발 데이터 세트를 사용하여 빠른 최대 우도 기반 시스템 개발 프로그램 평가' 는 RAxML, IQ-TREE, FastTree 및 Phyml 의 실제 효과와 성능을 체계적으로 비교한 결과 IQTREE 가 정확도가 약간 높다는 결론을 내렸습니다.

최근 RAxML 의 업그레이드 버전인 raxml-ng 가 발표되었습니다!

Raxml-ng 는 이전 세대 제품에 비해 다음과 같은 이점을 제공합니다.

말을 많이 하지 않고 직접 성적:

매개변수 설명:

-all: 통합 분석 수행 (ML 트리 검색+비패라메트릭 안내)

-MSA: 후속 시퀀스 파일에 사용

-모델: 이전 단계에서 생성된 최적 모델을 직접 입력합니다.

-bs-trees: 나무의 견고성 확인, 부트스트랩 테스트,1000 부트스트랩 샘플링 수행.

-스레드: 지정된 스레드

실행 결과는 다음 그림과 같습니다. 여기서 각 항목은 다음을 나타냅니다. BestTree 는 우리가 원하는 나무 파일이다. 나무 시각화 도구를 가져오면 된다. (나는 보통 MEGA 와 iTOL 을 사용한다.) 다음에 진화나무를 미화하는 방법을 쓴다.

진화 분석을 하는 작업자들은 많은 분석이 며칠, 특히 성과 (해본 사람들은 그 고통을 알고 있음) 를 기다려야 한다는 느낌을 받을 수 있으며, 때로는 갑자기 샘플을 하나 더 추가해야 할 때도 있다. (윌리엄 셰익스피어, 햄릿, 과학명언) 따라서 강력한 서버는 필수 도구입니다. 앞서 언급한 SNP 진화 나무처럼, 제가 한 일은 비슷한 종일 뿐, 게놈은 매우 작고 (9M) 4 만 개의 SNP 점이 있습니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 과학명언) 내 소프트웨어 메가를 사용하여 내 컴퓨터의 8 코어 CPU 를 호출하려면 자체 연구 1000 을 졸업할 수 있습니다.

한 생물 출신인 나는 그 불쌍한 컴퓨터 지식을 베꼈고, 우리 과제팀이 서버를 살 때 나는 많은 숙제를 했다. 물론, 주로 회사 기술자의 조언을 듣고, 매우 장기적인 테스트를 통해 자주 사용되는 생물 정보학 분석 소프트웨어 (주로 기생충 게놈, 숙주 전사 그룹, 16S 매크로 게놈 등에 종사하는 연구) 를 여러 번 사용했습니다. 마지막으로 다음과 같이 가격 대비 성능이 뛰어난 서버 구성을 찾았습니다.

봉미의 기술 형제 자매들에게 각종 저급한 질문에 답해 주셔서 진심으로 감사드립니다. 그들의 기술에 연락할 수 있는 것이 있으면 믿을 만하다. 공식 웹사이트: 봉미 기술.

그들의 로고를 위에 올려 감사를 표시하다.

이 글은 나의 학습 필기이니, 모두에게 도움이 되기를 바랍니다. 이 글은 대량의 문장 네트워크를 참조하며, 문장 출처는 전체 텍스트의 마지막에 열거되어 있다.

참조:

문장 속의 진화 나무를 읽다.

ProtTest 를 사용하여 최적의 아미노산 대체 모델 선택

RAxML-ng, 차세대 RAxML 진화 나무 구축