이 메모는 주로 PAML 분석에서 발생한 몇 가지 문제를 기록하고 장기간 업데이트하는 데 사용됩니다.
PAML 홈 페이지
PAML 설명서
PAML FAQ
PAML 토론 그룹
PAML 이론의 기본 원칙은 단백질 코딩 시퀀스의 자연 선택 압력 수준을 dN/dS(ω) 값으로 측정할 수 있다는 것입니다. 여기서 dS 는 동의어 대체율, dN 은 비의대체율을 나타냅니다. 압력을 선택하지 않은 경우 동의어 대체율과 비의대체율, DN/DS =1; 음의 선택이나 순화 선택 압력을 받을 때, 자연 선택은 아미노산의 변화를 막고, 동의어 대체율은 비의대체율, 즉 DN/DS 1 보다 크다.
PAML 간단한 프로세스
Paml 소프트웨어를 제대로 실행하려면 4 개의 표준 파일이 필요합니다.
트리 파일 설정:
Newick 형식의 트리 끝에는 세미콜론이 있어야 합니다. 그렇지 않으면 프로그램이 제대로 작동하지 않습니다.
Paml 분석은 주로 사이트 모델, 브랜치 모델, 브랜치 사이트 모델 및 진화 브랜치 모델의 네 가지 모델로 구성됩니다. 유전자좌 모델은 일반적으로 많은 병원체 적응과 같은 유전자좌의 지속적인 변화로 인해 발생하는 분기의 보편적이고 광범위한 긍정적인 선택을 감지하는 데 사용됩니다. 분기 모델은 분기가 빠르게 진화하고, 압력 제약 조건을 선택하고, 양수 선택을 할 수 있는지 여부를 주로 탐지하지만, 양수 선택 지점을 감지할 수는 없습니다. 브랜치 점 모델은 브랜치 브레이크 점을 탐지하는 양수 선택 이벤트에 더 정확하고 안정적입니다. 이 결과는 일정 기간 동안의 환경 변화에 적응하여 생겨났으며, 일반적으로 후손들 사이에서도 여전히 존재한다. 분기 모델은 주로 다른 종들이 분화와 선택의 압력에 처해 있는지 여부를 판단하는 데 사용되며, 긍정적인 선택에만 국한되지 않습니다. 한 번에 여러 분기를 표시하여 비교할 수 있습니다.
M0: 모든 유전자좌의 dN/dS 값이 같다고 가정합니다.
M 1a: 보수적 유전자좌 0 이라는 두 가지 유전자좌가 있다고 가정해 봅시다
M2a: 세 가지 위치, 즉 순화 선택점 DN/DS 가 있다고 가정해 봅시다. 1 그리고 세 가지 유전자좌의 비율 (P0, p 1, P2) 을 추정합니다.
M3: 이산 모델, 모든 사이트의 ω 값이 불연속적으로 분산되었다고 가정합니다.
M7: 모든 트랙이 0 이라고 가정합니다
M8: M7 모델을 기반으로 양의 선택 지점 (ω >; 1);
M8a: M8 과 비슷하지만 새로 추가된 ω는1에 고정되어 있습니다.
사이트 모델 Codeml.ctl 에 대한 매개변수 설정:
Rario: 모든 진화 계보가 같은 오메가 값을 가지고 있다고 가정해 봅시다.
자유 비율: 모든 분기에 별도의 ω 값이 있다고 가정합니다.
두 가지 비율: 전경 분기와 배경 분기의 ω가 다르다고 가정합니다.
브랜치 모델에 대한 Codeml.ctl 매개변수 설정:
사이트 간 ω 값이 변경된다고 가정하고 분기 간 ω 값이 변경된다고 가정합니다. 이 모델은 주로 정방향 선택이 전경 분기의 일부 지점에 미치는 영향을 감지하는 데 사용됩니다.
ModelA null:ω 값은 고정 값 1 으로 설정됩니다.
ModelA (대체 가정): ω 값이 1 보다 큰지 추정합니다.
백그라운드 분기와 포그라운드 분기는 사이트 ω 값이 같습니다.
K0: 전경 분기와 배경 분기의 비트는 순화되어 0 으로 선택됩니다
K 1: 전경 분기와 배경 분기의 유전자좌는 중성 진화 0 이다
배경 분기와 전경 분기는 사이트 ω 값이 다릅니다.
K2a: 전경 분기는 중성진화, 배경 분기는 순화 선택에 있습니다.
K2b: 전경 분기가 양수 선택 압력을 받고 있습니다 (ω >; 1), 백그라운드 분기는 중립 진화입니다.
브랜치 점 모델에 대한 Codeml.ctl 매개변수 설정:
브랜치 사이트 모델에 비해 여러 브랜치를 동시에 감지할 수 있지만 모델은 배경 브랜치의 dN/dS 값을 (0, 1) 으로 제한하지 않습니다.
간단한 차이점은 뿌리나무가 있는 조상 노드가 다이트리이고, 뿌리없는 나무는 삼지창 나무라는 것이다. 예를 들면 다음과 같습니다.
Codeml 을 사용할 때 루트 트리 매개변수를 지정하지 않고 루트 트리를 입력으로 사용하면 출력에 "이것은 루트가 있는 나무입니다. 확인해 주세요! " 。 대부분의 모델의 경우 루트 트리를 사용해도 모델 우도 값이 정확하지만 루트 주위의 두 가지 분기 길이는 일정하지 않습니다. 그 합이 추정치이기 때문입니다. 다른 모델의 경우 우도 추정과 매개변수 추정이 모두 올바르지 않습니다. 그래서 우리는 분석할 때 정말 이 정보에 주의하고, 가능한 한 무근나무 한 그루를 사용해야 한다. R 패키지 ape 를 사용하여 루트 나무를 루트 없는 나무로 변환할 수 있습니다.
다중 시퀀스 비교 과정에서 격차를 비교하는 것은 매우 어렵고 paml 패키지는 격차를 처리할 수 없습니다. 그래서 우리는 격차를 해소할 수 있습니다. Cleandata =1; 또한 간격은 모호한 문자로 간주될 수 있습니다. 그러나, 이것은 최고의 해결책이 아니며, 두 전략 모두 시퀀스 차이를 과소평가한다. 개인적으로 하나 또는 두 개의 시퀀스를 제외하고 시퀀스 정보가 있는 대부분의 비트는 유지되어야 하며, 하나 또는 두 개의 시퀀스를 제외한 비교 간격이 있는 모든 비트는 제거해야 한다고 생각합니다. 따라서 소프트웨어 및 필터링 소프트웨어보다 적절한 다중 시퀀스를 선택하는 것이 특히 중요합니다.
포그라운드 분기가 감지되면 해당 dn/ds >;; 1, 우리는 정방향 선택의 영향을 받는다고 생각할 수 있습니다. 하지만 그 DN/DS 가
일반적으로 한 트랙이 한 모델 아래의 리스트에 나타나면 다른 모델 아래에 상당한 확률이 있습니다. 만약 네가 그들을 이렇게 본다면, 결과는 크게 다르지 않을 것이다. 부위의 문제를 파악하는 것은 어렵고 오류가 발생하기 쉽다. 이런 상황은 한 반의 뛰어난 학생을 꺼내는 것과 비슷하다. 목록에 포함된 내용이 많을수록 품질이 떨어집니다. 따라서 우리는 일반적으로 사후 검사 확률이 95% 또는 99% 보다 큰 사이트가 더 믿을 만하다고 생각합니다.
노드에 초점을 맞추면 "#" 을 사용할 수 있습니다. 특정 집단에 집중하면' $' 를 사용할 수 있다. 사이트 모델 및 자유 비율 분석의 경우 포그라운드 분기를 표시할 필요가 없습니다. 브랜치 모델과 진화 브랜치 모델의 경우 단일 분석을 통해 여러 포그라운드 브랜치를 표시할 수 있습니다. 그러나 브랜치 점 모델의 단일 분석은 하나의 전경 브랜치만 표시할 수 있습니다.
위의 두 가지 예는 실제로 동일하므로 $ 1 은 상위 노드와 라이브 노드를 포함한 큰 분기를 표시할 수 있습니다. 반면 # 1 은 끝 분기나 조상 노드만 나타냅니다.
중첩 진화 가지에 대한 몇 가지 규칙이 있습니다. 기호 # 는 $ 보다 우선하며, 트리 맨 위의 진화 분기 태그는 루트 근처의 조상 노드의 진화 분기 라벨보다 우선합니다. 아래 나무 두 그루도 마찬가지다. 첫 번째 나무에서 $ 1 은 전체 태반 포유동물의 진화 분기 (인간의 혈통 제외) 에 적용되고, $2 는 토끼와 쥐의 진화 분기에 적용된다.
TreeView 소프트웨어를 사용하면 쉽게 트리 파일을 작성하고 트리와 레이블이 올바른지 확인할 수 있습니다. 모든 나무는 TreeView 에서 인식할 수 있습니다. TreeView X 에서는 작은따옴표로 표시해야 합니다. 다음과 같습니다.
또한 여러 분기를 동시에 통합 포그라운드 분기로 표시할 수 있습니다. 예를 들면 다음과 같습니다
링크 1
링크 2
[이미지 업로드 실패 ... (image-4ab1a5-1584449462345)]
동물의 조상에게 복제되는 어떤 유전자는 두 개의 다른 가지, A 와 B 로 분화된다.
높은 dN/dS 값은 정방향 선택 또는 빠른 진화로 해석될 수 있습니다. 돌연변이 자체는 선택 압력 (대부분 순화 선택) 이 있지만 돌연변이가 무작위로 발생한다고 해서' 유전자 A 가 돌연변이의 선택 압력을 증가시킨다' 고 해석할 수는 없다. 원칙적으로 돌연변이율은 dN 과 dS 에 영향을 주지만 일반적으로 dN/dS 는 돌연변이율의 영향을 받지 않습니다.
DN/dS 는 진화율이지만 돌연변이율은 아닙니다. 동의어와 비범한 대체율에는 다양한 수준의 선택 제약이 있기 때문입니다. 선택적 스트레스 테스트의 기본 원칙은 동의어 교체가 중립적이라고 가정하는 것이다. 즉, 대부분 유전적 표류 속에서 진화한 것이다. 만약 이것이 사실이라면, dS 는 (중성) 돌연변이율의 대안이 될 수 있다. 비범한 대체율은 항상 순화 선택의 압력 하에 있으며, 정방향 선택의 정도는 작다. 따라서 dN/dS 는 중립 편차의 측정입니다. 따라서 dN > DS, 즉 dN/dS > 1 은 긍정적 인 선택입니다. DN 이 dS 보다 작은 경우 dn/ds < 1 은 순화 옵션입니다. 스트레스 실험을 선택하는 관건은 특정 유전자 동의어 대체의' 중성' 진화율을 통해 동의어 대체율을 정상화한다는 점이다.
어쨌든, 실제 진화사를 나타내는 유전자 나무를 사용하는 것이 가장 좋다. 그러나 때로는 실제 진화 역사에 부합하는지 판단하기가 쉽지 않을 수 있으며, 대신 종나무를 선택할 수 있다. 게놈 수준 분석 후 종 나무를 추천합니다. 유전자 나무와 종나무로 데이터 견고성 테스트를 할 수 있다.
포유동물의 조상을 전망으로 한다면, 이 유전자가 같은 조상에서 적응성을 갖는다고 가정하면, 이는 새로운 기능을 얻었기 때문일 수 있지만, 그 후 순화 선택에 따라 보수적인 진화가 일어났기 때문일 수 있다. 만약 당신이 전체 분기를 하나의 전망으로 본다면, 전체 포유동물 중 유전자의 모든 분기가 끊임없이 변하거나 다양한 압력에 처해 있다고 가정하면, 만약 유전자가 방어나 면역을 포함한다면 이런 상황이 될 수 있습니다.
조상을 검출할 것인지, 전체 분기를 검사할 것인지는 생물학적 문제에 달려 있다. 예를 들어, 리소자임은 모든 복제 원숭이에서 동일한 기능을 가져야 하므로 단백질은 진화 가지에서 선별적으로 제한될 것으로 예상됩니다. 하지만 콜로빈 가지의 가지에서 이 효소는 아미노산의 변화를 유도하는 새로운 기능을 분명히 얻게 되었다. (윌리엄 셰익스피어, 콜로빈, 콜로빈, 콜로빈, 콜로빈, 콜로빈, 콜로빈, 콜로빈, 콜로빈, 콜로빈) 이 가설로, 너는 분기의 조상을 clade 의 그 분기가 아니라 clade 로 표시해야 한다.
심사인의 의견은 종종 이렇다. 전경 분기에서 선택된 유전자의 중요한 지지가 배경 분기에 긍정적인 선택이 없다는 것을 의미하지는 않으며, 이러한 유전자는 많은 (전부가 아닌 경우) 배경 분기에서 여전히 선택 상태에 있을 수 있다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 예술명언) 초기 가정 (유전자가 전경 분기에서만 정방향으로 선택됨) 이 정확한지 확인하기 위해 Clade 모델을 추가로 검사할 수 있습니다. 진화 분기 모델을 사용하면 배경 dN/dS 가 1 보다 작다는 것을 제한하지 않고 전경 분기와 배경 분기의 비율 dS/dN 을 추정할 수 있기 때문입니다.
한 가지 증거는 전체 유전자가 긍정적인 선택을 하고 있다는 증거일 수 있지만, 각 개인의 유전자좌에 대한 정보나 증거가 너무 약하다. Rst 파일을 볼 수 있습니다. 모든 사이트에 대한 사후 검사 확률이 있습니다. 그렇지 않은지 확인하십시오. MLC 파일에는 사후 검사 확률이 0.5 보다 높은 파일만 나열됩니다.
Codeml 이 gap 또는 퍼지 문자의 열을 제거하고 사이트 (cleandata = 1) 의 번호를 다시 매겼기 때문일 수 있습니다.
오메가 = 999 와 같은 이 최대 dN/dS 를 만났을 때, 먼저 당신의 순서가 정확한지 확인하세요. 둘째, 이 위치의 dn 과 ds 가 0.000 1 보다 훨씬 작은지, 분기 길이가 너무 작은지 여부. 매우 유사한 시퀀스와 매우 다른 시퀀스는 정보를 제공할 수 없으므로 정확한 값을 지정하기가 어렵습니다. 이러한 문제를 피하기 위해 먼저 M0 모델을 통해 분기 길이를 얻은 다음 분기 길이의 진화 트리를 코드 ML 에 적용하고 CTL 에서 FIX_blength=2 를 설정할 수 있습니다.
그림과 같이 빨간색 분기는 표현형 융합의 진화 분기를 나타냅니다. 브랜치 사이트 모델을 통해 적응 수렴 진화를 탐지하려면 모든 빨간색 분기를 전경 분기로 설정해야 합니다. 물론, 전제는 모든 전경 분기가 같은 궤적을 가지고 있고, 선택하는 것이다. 배경 분기도 비슷한 적응 수렴을 가지고 있는지 여부는 분기 진화 분기 모델을 통해 감지할 수 있습니다.
P0/ω0, p 1/ω 1, p2 = (1-P0-p1)/ P 1 은 중립적 진화에서의 입지 확률을 나타냅니다. P2 는 긍정적 인 선택에서 사이트 확률을 나타냅니다.
가정 (fix_omega = 0 omega = 1) 과 비율 0 가정 (fix _ omega =1omega =/kr) 을 두 가지 비율로 대체할 수 있습니다
Codeml 은 두 단계로 선택 제약 조건의 완화를 감지할 수 있습니다. 먼저 dN/dS 가 크게 증가하는 상황 (정방향 선택 또는 선택 제약 조건의 완화로 인해) 을 파악합니다. 그런 다음 눈에 띄는 양의 선택을 걸러냅니다.
CladeC 및 CladeD 모델의 경우 일반적으로 lnL 값이 안정적인지 여부를 테스트하기 위해 몇 가지 다른 초기 ω를 설정해야 합니다 (ω=0.00 1, ω=0.0 1, ω = 0./kloc
정상 분석에서는 먼저 M0 을 사용하여 나무의 가지 길이와 Kappa 값을 추정한 다음 탈출 트리를 초기 트리로 사용하여 fix_blength = 2 를 설정합니다.
링크 1
링크 2
CladeC 은 다양한 분기의 분화 및 선택 압력을 감지하는 데 자주 사용되지만, 전경 분기 DN/DS >;; 1. 이 시점에서 CladeC 의 제로 가정 (fix _ omega = 1, omega = 1) 을 사용하여 더 자세히 검사하거나 branch 를 사용해야 합니다
자유 비율 모델을 예측하면 일반적으로 더 큰 샘플링 오류가 발생합니다. 예를 들어 짧은 분기는 일반적으로 더 큰 dS/dN 을 가집니다. 그래서 일반적으로 DN/DS >;; 999 또는 dN, DS
데이터 세트에 A, B, C 의 세 가지가 있는데 분기 1 과 분기 2 에 큰 차이가 있습니까?
전경 분기가 다음과 같이 표시된다고 가정합니다.
먼저 CLADEC 간의 현저한 차이를 테스트하기 위해 CLADEC 과 M2a_rel 을 비교할 수 있습니다. M2a_rel 은 2 와 $0 이 모두 같은 선택 압력으로 진화했다고 가정하므로 이 테스트에는 2 자유도가 있어야 합니다.
둘째, 분기 A 와 분기 B 간의 큰 차이를 테스트하고 분기 C 를 다르게 허용하기 위해 위에 제공된 트리를 사용하여 CMC 를 실행하는 것과 더 간단한 트리를 사용하여 CMC 를 실행하는 것 사이의 맞춤 정도를 비교할 수 있습니다. 이 경우 더 간단한 나무는 분기 A 와 B 를 동일한 그룹에 할당하며 이 테스트에는 1 자유도가 있어야 합니다. 다음과 같습니다.
데이터 세트에 여러 개의 전경 분기가 있는 경우: 1) 여러 테스트를 수행한 다음 각 테스트에서 원하는 분기를 전경 분기로 설정합니다. 2) 관심 있는 모든 분기를 포그라운드 분기로 설정하는 테스트를 한 번만 수행합니다. 그러면 또 다른 문제가 생길 수 있습니다. 여러 번 테스트할 때 다른 관심 분야를 제거해야 합니까? 이것은 아마 구체적인 생물학적 문제에 달려 있을 것이다.
/g/pamlsoftware/c/aVj2opOg7PA
수정 후 중요하지 않은 경우 adjP 정렬을 선택할 수 있습니다.
자유비율을 사용하면 더 큰 오류 /g/pamlsoftware/c/2drys0ff7 _ o 가 발생할 수 있습니다.
양수 선택 위치의 상태는 전경 분기의 시퀀스 상태가 아니라 다중 시퀀스 일치에서 첫 번째 참조 시퀀스의 상태입니다. 또한 cutdata 가 1 으로 설정되어 있는지 확인합니다.
/g/pamlsoftware/c/ZnPaysiZKbI