2 세대 시퀀싱 라이브러리 구축-개요 및 과제 (1)

NGS 라고도 하는 고통측정순서는 게놈학 연구를 재정의했다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 과학명언) 최근 몇 년 동안 NGS 기술은 꾸준히 발전하고, 비용은 계속 낮아지고, 시퀀싱의 응용은 기하급수적으로 증가했다. 이 문서에서는 시퀀싱 라이브러리의 품질에 영향을 미치는 핵심 요소와 DNA 소스 및 RNA 소스 라이브러리 준비에서 직면한 과제에 대해 살펴보았습니다. 이러한 요인에는 DNA/RNA 재료의 양적 및 물리적 특성과 잠재적인 응용 프로그램 (예: 게놈 시퀀싱, 표적 시퀀싱, RNA-seq, ChIP-seq, RIP-seq 및 메틸화) 이 포함되며, 이는 고품질 시퀀싱 라이브러리 준비에 설명되어 있습니다. 게다가, 우리는 단세포로부터 문고를 준비하는 방법도 토론할 것이다.

지난 5 년 동안 NGS 기술은 생명과학 분야의 연구원들에 의해 광범위하게 사용되었다. 동시에, 시퀀싱 기술의 발전과 발전에 따라 핵산 추출과 문고 준비 방법이 파생되었다. 예를 들어, 단일 세포의 RNA 와 DNA 가 라이브러리 준비에 성공적으로 사용되었습니다. NGS 문고 준비의 기초는 표적 핵산, RNA 또는 DNA 를 시퀀서에서 사용할 수 있는 형식으로 변환하는 것이다 (그림 1). 여기서는 illumina 시퀀싱 기술과 호환되는 라이브러리에 초점을 맞춘 여러 라이브러리 준비 전략과 NGS 응용 프로그램을 비교했습니다. 그러나 이 글에서 논의한 거의 모든 원칙은 생명기술회사, 로스사, 태평양 생물과학사 등 다른 NGS 플랫폼에 약간 수정할 수 있다는 점을 유의해야 한다.

일반적으로 라이브러리 준비의 핵심 단계는 다음과 같습니다. 1) 조각 및/또는 특정 길이의 조각 선택, 2) 이중 체인으로 변환, 3) 세그먼트 끝에 올리고 뉴클레오티드 커넥터를 연결, 4) 라이브러리를 정량화합니다. 목적 DNA 조각의 크기는 NGS 문고를 구축하는 핵심 요소이다. 핵산이 끊어지는 방법은 주로 물리적, 효소, 화학적 방법을 포함한다. 물리적 방법에는 음파 전단 (Covaris) 과 초음파 (BioRuptor) 가 있습니다. 효소 절단 방법에는 비특이성 핵산 내체효소와 회전효소 조각화가 포함된다. 우리 연구실에서 Covaris, Woburn, MA 는 주로 100-5000bp 범위 내의 DNA 조각을 얻는 데 사용되고, Covaris g-TUBEs 는 페어링 라이브러리에 필요한 6-20kb 범위 내의 DNA 조각을 얻는 데 주로 사용됩니다. 효소 소화 방법에는 DNase I 또는 조각화 효소의 소화와 두 효소의 혼합물 (New England biolabs, IP Switzerland MA) 이 포함됩니다. 두 방법 모두 효과가 있다. 그러나 조각화된 효소는 물리적 방법보다 더 많은 가짜 indel 을 생성합니다. 또 다른 효소는 Illumina 의 Nextera 로, 회전식 효소를 사용하여 무작위로 조각화하고 커넥터 시퀀스를 이중 체인 DNA 에 삽입한다. 이 방법에는 샘플 처리 및 준비 시간을 줄이는 등 몇 가지 장점이 있습니다.

라이브러리의 크기는 연결 시퀀스의 길이가 일정하기 때문에 삽입된 세그먼트의 크기 (연결 시퀀스 사이의 라이브러리 부분 참조) 에 따라 결정됩니다. 반대로 최적의 삽입 길이는 NGS 장치와 특정 시퀀싱 어플리케이션에 의해 결정됩니다. 예를 들어, illumina 에서 최적의 조각 크기는 라이브러리 준비, 희석 및 증폭에 사용할 칩 표면에 할당되는 클러스터 생성 프로세스의 영향을 받습니다. 단편 세그먼트 증폭이 더 효과적이지만 긴 단편 라이브러리는 더 크고 분산된 클러스터를 생성할 수 있습니다. 우리가 illumina 로 서열을 밝힌 가장 큰 문고는 1500bp 입니다.

최적 문고 크기도 시퀀싱 앱에 의해 결정된다. 엑손 시퀀싱의 경우, 인간의 엑손 길이의 80% 이상이 200bp 미만이다. 우리는 PE 100bp 를 감지했고, 외현자 라이브러리 크기는 약 250bp 로 대부분의 외현자의 평균 크기와 일치하며, 그 결과 겹치는 읽기 쌍이 없었다. RNA-seq 라이브러리의 크기도 애플리케이션에 의해 결정됩니다. 유전자 발현 분석의 경우 SE 100 시퀀싱을 사용합니다. 그러나 PE 100 시나리오를 선택하여 가변 스플라이싱 또는 전사 시작 및 종료 지점을 결정합니다. 대부분의 응용에서 RNA 는 부러지기 전에 cDNA 로 역전된다. 일반적으로 2 가 금속 이온 (마그네슘 또는 아연) 은 RNA 의 조절 가능한 열 소화에 사용됩니다. 문고 단편의 크기는 소화반응의 시간을 조절하여 조절할 수 있어 반복성이 좋다.

최근 7 개의 RNA-seq 문고 준비 방법에 대한 연구에서 대부분 먼저 RNA 를 조각한 다음 커넥터를 넣는다. 무작위 프라이머나 보다 지능적인 초저RNA 테스트 키트 대신 고정 3' 과 5' 시퀀스가 있는 전체 길이의 cDNA 시퀀스를 합성할 수 있는 두 가지 방법이 있습니다. 전체 길이 cDNA 라이브러리 (평균 2kb) 는 장거리 PCR(LD-PCR) 을 통해 증폭될 수 있습니다. 음파로 증폭된 쌍체인 cDNA 를 적절한 길이로 잘라서 표준 illumina 문고 준비 (끝 복구와 편평화 포함, A 와 커넥터 연결 추가, PCR 로 증폭됨) 에 사용한다. ) 을 참조하십시오

라이브러리 구축 후 라이브러리 크기를 처리하는 또 다른 단계는 칩 선택 및 라이브러리 준비에서 커넥터 이량 체 또는 기타 부산물을 제거하는 것입니다. 조인트 이량 체는 조인트 자체 연결의 결과입니다. 이러한 이량 체의 클러스터링 효율은 매우 높으며 귀중한 칩 공간을 소비하지만 효과적인 데이터는 생성하지 않습니다. 따라서, 우리는 보통 자주법이나 절교법을 사용하여 회수한다. 자기주법은 원료가 충분한 상황에 적용된다. 샘플 입력이 제한되어 있으면 더 많은 커넥터 이량 체가 생성됩니다. 우리의 경험은이 경우 자기 비드 기반 방법이 적용되지 않으며 자기 구슬과 고무 절단 및 회수 방법을 결합해야한다는 것입니다.

MicroRNA/ 작은 RNA 문고의 준비에서 과녁산물은 보통 120bp 의 커넥터 이합체보다 20-30bp 길다. 따라서 가능한 많은 대상 시퀀스를 얻기 위해 고무 절단 및 재활용 방법을 사용해야 합니다. 이런 분리 정확도는 자기 구슬에 적합하지 않다. 또한 세균 게놈을 처음부터 조립하기 위해 더 긴 PE300 읽기 길이와 PCR 없는 단계를 결합하는 큰 삽입 조각 라이브러리 (1kb) 를 구축해야 하는 경우가 많습니다. 조립에 사용할 수 있는 가능한 많은 데이터를 얻으려면 같은 크기의 삽입 조각을 얻기 위해 접착제를 조심스럽게 자르고 재활용해야 합니다.

DNA 샘플을 사용하여 라이브러리를 구축하는 과정에서 시작 재료의 양, 라이브러리가 재시퀀싱 (비교에 사용할 수 있는 참조 시퀀스 포함) 에 사용되는지, 아니면 처음부터 시퀀싱 (오프라인 데이터로 새 참조 시퀀스를 조립해야 함) 을 비롯한 몇 가지 고려 사항이 있습니다. 게놈에 높은 GC 또는 낮은 GC 영역이 있기 때문에 문고제비는 편향이 생기기 쉽다. 현재 증폭에 사용되는 중합 효소, 순환 수, 조건 및 완충액을 신중하게 선택하는 등 이러한 문제를 해결할 수 있는 방법이 개발되었습니다.

DNA 샘플의 문고제비, WGS, WES, ChIP-seq 또는 PCR 증폭자에 사용되든, 일반적으로 같은 과정을 따릅니다. 일반적으로 모든 응용 프로그램에서 목표는 라이브러리를 가능한 한 복잡하게 만드는 것입니다.

현재 몇 가지 브랜드의 DNA 데이터베이스 테스트 키트 들이 있다. 경쟁도 가격의 빠른 하락과 품질 향상으로 이어졌다. 이 테스트 키트 들은 ug 에서 pg 까지 다양한 수준의 DNA 시작량을 처리할 수 있다. 하지만 초기 양이 크면 증강주기 수가 줄어들기 때문에 문고가 더 복잡하다는 점을 기억해야 한다. Nextera 외에도 라이브러리 준비 단계에는 일반적으로 1) 조각화, 2) 끝 복구, 3)5- 끝 인산화, 4)3- 끝에 a, 5) 커넥터 연결, 6) 등이 포함됩니다 이온 급류 공정의 주요 차이점은 평평한 끝이 서로 다른 접합 시퀀스를 연결한다는 것입니다.

초기 DNA 조각화 후, 세 가지 효소 (T4 다뉴클레오티드 키나아제, T4 DNA 중합 효소, Klenow 단편) 의 혼합물은 말단 보상과 5- 말단 인산화에 사용된다. Taq 중합 효소 또는 Klenow 조각 (exo-) 을 통해 a- 꼬리를 3- 끝에 추가합니다. Taq 는 꼬리를 추가하는 데 더 효과적이지만 난방 방법을 사용할 수 없을 때 Klenow (예: 쌍 라이브러리) 를 사용할 수 있습니다. 커넥터 연결 중 가장 좋은 커넥터: 조각 비율은 약 10: 1 (무어) 입니다. 너무 많은 접합은 분리하기 어려운 이합체를 형성하는데, 이 이합체는 후속 증폭을 주도한다. 끝 복구와 가산반응 후 자주나 접착제를 회수하는 방법이 적용되지만, 연결 반응 후 자구슬의 방법이 접합 이합체를 더 효과적으로 제거할 수 있다는 것을 알게 되었다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 자기관리명언)

여러 샘플을 쉽게 혼합할 수 있도록 서로 다른 바코드를 서로 다른 샘플에 사용할 수 있습니다. 또한 바코드가 다른 프라이머를 통해 PCR 증폭 프로세스를 통해 바코드를 추가할 수 있습니다. 고품질 커넥터와 바코드가 있는 PCR 프라이머는 여러 공급업체에서 구입할 수 있습니다. 현재 DNA 문고 건설의 모든 구성 요소, 커넥터부터 효소에 이르기까지 상세한 문자 설명이 있어 직접 만든 문고에 조립하여 테스트 키트 준비를 할 수 있다.

또 다른 방법은 Nextera 방법으로, 회전효소를 이용하여 무작위로 DNA 를 중단하고 단일 튜브에 태그 (일명 tagging) 를 붙이는 것이다. 이 엔지니어링 효소는 조각화된 DNA 와 조각화된 DNA 의 양쪽 끝에 특정 커넥터를 추가하는 두 가지 기능을 가지고 있습니다. 이러한 커넥터 시퀀스는 다음 PCR 동안 삽입된 조각을 확장하는 데 사용됩니다. PCR 반응은 바코드를 추가합니다. 기존 방법에 비해 이 제조 프로세스의 장점은 파손, 끝 복구 및 접합 연결을 하나로 결합하는 것입니다. 이 방법은 기계 끊기 방법보다 DNA 의 초기 양에 더 민감하다. 적당한 거리에서 파열을 이루기 위해서는 회전효소와 샘플의 비율이 매우 중요하다. 조각의 크기는 반응 효율에 따라 달라지기 때문에 온도 및 반응 시간과 같은 모든 반응 매개변수는 매우 중요하며 엄격하게 제어해야 합니다.

일부 연구팀은 단세포 게놈 시퀀싱의 결과를 발표했다. 현재 전략은 MDA (다중 체인 교체) 를 사용하여 전체 게놈을 증폭시킵니다. MDA 는 주로 무작위 프라이머와 phi29 를 사용하는데, 매우 점진적인 사슬 교체 중합 효소이다. 이 기술은 시퀀싱 라이브러리를 구축하기에 충분한 수량을 생산할 수 있지만, 그 문제 중 하나는 비선형 증폭으로 인한 많은 편차입니다. 최근에는 반선형 전면 확대 단계를 늘려 편차를 줄일 수 있다고 생각하는 사람들이 있다. 단세포 분리와 마이크로흐름 제어 기술을 바탕으로 Fluidgm 을 이용하여 단세포 라이브러리를 만들어 한 번에 최대 96 개의 단세포를 얻을 수 있다.

RNA 문고의 경우, 우리는 시퀀싱 목적에 따라 문고 건설 방안을 선별해야 한다. 복잡하고 포괄적인 전사 사건을 발견하는 것이 목적이라면, 문고는 인코딩, 비인코딩, 반의와 유전자 간 RNA 를 포함한 전체 전사 그룹을 포괄해야 하며, 가능한 한 완전해야 한다. 그러나 많은 경우 목적은 인코딩이 단백질로 번역될 수 있는 mRNA 의 전사물을 연구하는 것입니다. 또 다른 경우는 snoRNA, piRNA, snRNA 및 tRNA 를 포함한 대부분의 mirna 인 작은 RNA 만 관련되어 있습니다. RNA 시퀀싱 라이브러리의 원리를 상세히 설명해야 하지만 일일이 열거할 수는 없다. 관심 있는 독자는 스스로 연구할 수 있다.

NGS 가 RNA-seq 에 적용된 첫 번째 성공 사례는 miRNA 입니다. MiRNA 시퀀싱 라이브러리의 준비는 매우 간단하며 일반적으로 1 단계 반응입니다. 사실, miRNA 는 5- 끝에 천연 인산 변형이 있어 연결 효소가 선택적으로 miRNA 를 타겟팅 할 수 있습니다.

Illumina 단계의 첫 번째 단계에서는 잘린 T4 RNA 연결 효소 2 를 통해 3- 끝 폐쇄 및 5- 끝 아데노신 산성화 DNA 커넥터를 RNA 샘플에 연결합니다. 이 효소는 이미 아데노신 산성화 3- 끝 커넥터 기질로 손질되었다. 따라서 이 반응에서는 다른 RNA 조각이 서로 연결되지 않습니다. 아데노신산 과뉴클레오티드만 자유 RNA 의 3- 끝에 연결할 수 있다. 커넥터 3 의 끝이 막혀서 자체 연결을 할 수 없습니다. 다음으로 ATP 와 RNA 연결 효소 1 의 작용으로 5 단 RNA 커넥터를 추가합니다. 5- 말단 인산화된 RNA 분자만 연결반응에서 효과적인 기질로 사용할 수 있다. 두 번째 연결 반응 후 역전사 유인물은 3- 끝 커넥터와 교잡하여 RT-PCR 증폭 (보통 12 사이클) 을 시작합니다. 작은 크기와 예측 가능한 조각 크기 (120bp 의 커넥터 시퀀스+20-30bp 의 miRNA 삽입 조각) 로 인해 바코드 라이브러리 또는 여러 혼합 샘플이 함께 재활용되는 경우가 많습니다. 접합 이량 체 및 비 miRNA 연결 (tRNA 및 snoRNA) 의 존재로 인해 플라스틱 회수가 중요합니다. 이 문고제비법은 문고의 방향 시퀀싱을 야기하는데, 항상 원본 RNA 의 5 번 끝에서 3 번 끝까지이다. Ion Torrent 의 miRNA 시퀀싱 원리도 비슷합니다. 두 개의 다른 커넥터를 통해 Ion Torrent 를 mirna 의 3- 끝 및 5- 끝에 연결한 다음 RT-PCR 을 수행합니다. 일반적으로 라이브러리 구축 단계에서는 모든 RNA 재질을 방향 RNA-seq 라이브러리로 구성할 수 있습니다.

MiRNA 라이브러리의 제한 사항 중 하나는 RNA 의 초기 양이 낮다는 것입니다 (

MRNA 시퀀싱 라이브러리의 경우, 방법은 주로 무작위 프라이머나 oligo-dT 프라이머로 cDNA 를 합성하거나 mRNA 조각에 커넥터를 추가한 후 어떤 형태의 증폭을 하는 것을 포함한다. MRNA 는 무작위 프라이머나 oligo-dT 로 시작하여 cDNA 체인을 만들 수 있습니다. 무작위 프라이머를 사용하는 경우 먼저 rRNA 를 제거하거나 줄여야 합니다. RRNA 는 Ribo-Zero 및 RiboMinus 와 같은 올리고 뉴클레오티드 프로브를 기반으로 한 시약 제거를 통해 제거할 수 있습니다. 또한 polyA RNA 는 oligo-dT 자석을 통해 양성 선별을 할 수 있다.

일반적으로 문고가 원래 과녁 RNA 사슬의 방향성을 유지할 수 있기를 바란다. 예를 들어 역전에서 나오는 반의RNA 는 유전자 표현을 조절하는 역할을 한다. 사실, lncRNA 분석은 방향성 RNA 시퀀싱에 의존한다. 방향성 RNA-seq 문고를 준비할 수 있는 몇 가지 방법이 있습니다. 논리적으로 cDNA 반응을 수행하고 두 체인의 1 을 선택적으로 제거하고 두 번째 cDNA 체인을 합성할 때 dUTP 를 추가합니다. 우라실은 반응효소에 의해 소화되거나 소변이 인식되지 않는 중합효소에 의해 증폭될 수 있는 사슬을 포함하고 있다. 또한 방선균 D 를 추가하면 단일 체인 cDNA 합성 중 의체인 합성을 줄일 수 있습니다.

또 다른 잡교 방법은 무작위 또는 앵커 -dT 프라이머의 조인트 시퀀스를 사용하여 첫 번째 체인 cDNA 의 합성을 시작합니다. 다음으로 템플릿 변환 단계에서 cDNA 분자에 3- 끝 연결구 시퀀스를 추가합니다. 이 방법의 분명한 장점은 첫 번째 체인 cDNA 분자가 두 번째 체인 합성 없이 3- 끝의 고유한 시퀀스 레이블로 PCR 을 통해 직접 증폭될 수 있다는 것입니다. 첫 번째 체인 합성 중에 5- 끝 고유 시퀀스 레이블을 도입합니다.

CDNA 합성을위한 프라이머 디자인은 RNA-seq 라이브러리에 매우 중요합니다. 예를 들어 rRNA 를 목표로하는 프라이머를 설계하여 rRNA 시퀀스를 제거 할 수 있습니다 (추가 증폭에 사용되지 않음). NuGEN Ovation RNA-seq 는 SPIA (단일 프라이머 등온 증폭) 핵산 증폭 기술과 1 차 체인 cDNA 합성을 위한 프라이머를 결합하여 rRNA 증폭을 억제한다. 또 다른 방법에서는 4096 개의 6 중합체를 사용하여 rRNA 시퀀스를 억제합니다 (정확한 일치 식별 및 제거). 첫 번째 체인 cDNA 합성 반응을 시작하기 위해 749 개의 6 중합체를 보존했습니다. 그 결과 rRNA 판독값이 78% 에서 13% 로 떨어졌다. 또 다른 방법으로, DP-seq 는 44 개의 칠합체 유인물을 사용하여 대부분의 쥐 전사물을 증폭시킵니다. 이 유인물 설계는 rRNA 를 포함한 고표현 전사물의 증폭을 선택적으로 억제하고 배아 발육 모델에서 저풍도 전사물의 추정치를 제공한다.

최근 단세포 RNA 문고를 준비하는 방법이 발표됐다. 한 가지 방법은 첫 번째 cDNA 체인의 다중 뉴클레오티드 꼬리를 템플릿 변환 반응과 결합하는 것입니다. 그 결과 1 차 체인 cDNA 제품은 범용 PCR 프라이머를 통해 증폭될 수 있다. 그림 4B 와 같이 테스트 키트 내에 통합되었습니다. 또 다른 방법은 CEL-Seq 로, cDNA 의 5- 끝에 T7 프로모터 시퀀스를 합성한 다음 체외 전사 과정에서 현상을 증폭시키는 것이다.

단일 세포의 총 RNA 는 일반적으로 10pg 인 반면 polyA RNA 는 0. 1pg 밖에 없습니다. 따라서 이러한 방법은 데이터베이스 구축을 위한 충분한 초기 양을 생성하기 위해 어느 정도 전체 전사 확장이 필요합니다. 이런 대규모 확대의 단점은 대량의 기술 소음을 발생시킨다는데, 이 문제는 아직 해결되지 않았다. (? ) 을 참조하십시오

마지막으로, 리보솜 자국은 모든 번역 노드에서 세포 mRNA 전사물의 혼합을 반영할 수 있습니다. 이 방법에는 리보 핵산 효소를 사용하여 세포를 용해하고 핵소체에 의해 보호되는 30 개의 뉴클레오티드 영역만 남기는 것이 포함된다. 사탕수수당 밀도 그라데이션 원심순화 핵소체, 핵소체에서 mRNA 를 추출한다. RNA 시퀀싱의 또 다른 새로운 응용 프로그램은 SHAPE-Seq 입니다. Shape-SEQ 는 RNA 의 2 차 구조를 탐색하기 위해 아 실화 된 시약 (acylated profile) 를 사용하여 일치하지 않는 염기를 편향적으로 변형합니다. 역전사 변형의 RNA 와 수정되지 않은 대조를 통해 얻은 cDNA 조각을 서열분석할 수 있으며, 비교 후 뉴클레오티드 수준의 염기쌍 정보를 밝혀낼 수 있다.