단백질 서열 데이터베이스의 데이터베이스 분류

PIR 데이터베이스는 데이터의 특성과 주석 수준에 따라 PIR 1, PIR2, PIR3 및 PIR4 의 네 부분으로 나뉩니다. PIR 1 의 시퀀스는 가장 자세한 주석 검증을 거쳤습니다. PIR2 에는 아직 결정되지 않은 중복 시퀀스가 포함되어 있습니다. 핀 3 의 시퀀스는 아직 테스트되거나 주석 처리되지 않았습니다. PIR4 에는 다른 채널에서 가져온 시퀀스가 포함되어 있으며, 이러한 시퀀스는 검증되거나 주석이 없습니다. PIR 외에도 또 다른 중요한 단백질 시퀀스 데이터베이스는 SwissProt 입니다. 이 데이터베이스는 스위스 제네바 대학에서 설립한 1986 으로 현재 스위스 생물정보연구소 (SIB) 와 유럽 생물정보연구소 EBI*** 에 의해 유지 및 관리되고 있습니다. 스위스 생물정보연구소 산하의 단백질분석전문가 시스템 (ExPASy) 의 웹 서버는 SwissProt 데이터베이스의 개발과 유지 관리일 뿐만 아니라 국제단백질팀과 단백질분자모형연구센터이기도 하다. 사용자에게 대량의 단백질 정보 자원을 제공한다. 북경대학교 생물정보센터에는 ExPASy 의 거울이 있다. PIR 과 SwissProt 는 가장 오래되고 광범위한 단백질 데이터베이스를 사용합니다. 다양한 모델 생물 게놈 프로젝트가 진행됨에 따라 DNA 서열, 특히 EST 서열이 대량의 핵산 서열 데이터베이스에 진입했다. TrEMBL 은 EMBL 의 cDNA 서열에서 번역된 단백질 서열 데이터베이스입니다. TrEMBL 데이터베이스는 "EMBL 번역" 을 의미하는 1996 [Bairoch, 2000] 에서 만들어졌습니다. 데이터베이스는 SwissProt 데이터베이스 형식이며 EMBL 데이터베이스에 있는 모든 인코딩 시퀀스의 번역이 포함되어 있습니다. TrEMBL 데이터베이스는 SP-TrEMBL 과 REM-TrEMBL 의 두 부분으로 나뉩니다. SP-TrEMBL 의 항목은 결국 SwissProt 데이터베이스에 병합됩니다. Rem-TrEMBL 에는 면역 글로불린, T 세포 수용체, 아미노산 잔기 8 개 미만의 작은 펩타이드, 합성서열, 특허 서열 등 다른 나머지 서열이 포함되어 있다. TrEMBL 과 마찬가지로 GenPept 는 GenBank 가 번역한 단백질 시퀀스입니다. TrEMBL 과 GenPept 는 모두 컴퓨터 프로그램을 통해 핵산 시퀀스를 번역하여 생성되기 때문에 두 데이터베이스 모두 시퀀스 오류율이 높고 중복적입니다. 또 다른 일반적인 단백질 시퀀스 데이터베이스는 알려진 3 차원 구조를 가진 단백질의 1 차 구조 시퀀스 데이터베이스인 NRL-3D[Namboodiri, 1990] 입니다. 데이터베이스의 순서는 PDB 의 3D 구조 데이터베이스에서 추출됩니다.