질병관리청

contents area

주간건강과질병

SNS공유 열기

SNS공유닫기

프린트하기

detail content area

생물정보학을 이용한 단일 세포 유전체 연구 소개

작성일2016-12-08
최종수정일2016-12-08
담당부서바이오과학정보과
연락처043-719-8850

생물정보학을 이용한 단일 세포 유전체 연구 소개

질병관리본부 국립보건연구원 바이오과학정보과 김상철, 조성범*

* 교신저자: sbcho@korea.kr / 043-719-8850

Abstract

Bioinformatics for Single Cell Genome Study
Division of Bio-medical Information, Center for Genome Science, NIH, CDC
Kim Sang Cheol, Cho Seong Beom

With the development of molecular biology and biotechnology, it is now possible to identify the characteristics of individual single cells by looking at the quantitative genomic changes. To look at individual single cell genome, amplification and sequencing techniques should be combined. The characteristics of single cells produced by next generation sequencing (NGS) technology are a combination of the characteristics generated by the amplification technology and the common characteristics of the existing next generation sequencing data, thus, a variety of bioinformatics views are required to analyze this data. In this article, we reviewed the background and limitations of bioinformatics methods used for single cell genome analysis.

Ⅰ. 들어가는 말

현대 유전학과 유전체 분야는 세포 기능을 수행하는 단백질 코딩 유전 프로그램의 발견 이후 급속히 발전하였다[1]. 대량의 유전적 변이 연구를 위한 접근 방식은 새로운 단 세포 종과 수천의 인간 질병에 연관된 유전 병인을 확인했지만, 대부분의 연구는 생태계 또는 유기체의 수준에서 수행되었다[2,3]. 그러나, 우리는 단 세포 종의 생태계 내에서 다양성과 생물의 혼합 그룹을 연구함으로써 다세포 생물의 세포 내에서 유전체는 항상 동일하지 않은 것을 확인하였다. 단일 세포 유전체는 세포 수준으로 유전체 연구를 도입하여 유전학에 대한 우리의 이해를 새로운 관점으로 제공하는 것을 목표로 하고 있다. 특히, 단일 세포 유전체를 이용하여 미생물의 유전체를 식별하고, 줄기세포 개대 배양 시 단일 세포의 선택적 유지에 관한 연구가 가능하고, 질환 유전적 염색체의 역할을 평가하거나, 암 발생 또는 종양 유전적 이질성의 기여를 결정하는 것을 이해 할 수 있다[4]. 이와 같은 단일 세포 유전체 연구는 전유전체(whole genome), 전장유전체(whole exome), 전사유전체(RNA), 후성유전체(epigeneitcs) 등 다양한 분야에서 활발히 이뤄지고 있고, 이 자료를 분석함에 있어서 적은 양의 DNA와 RNA의 증폭 기술로 발생되는 특징과 기존 차세대염기서열 자료가 가지는 공통 특징이 혼합된 상태로 이를 분석하는 데는 다양한 생물정보학 시각이 요구된다. 본 연구에선 단일 세포 분리 및 시퀀싱 절차에 대해서 알아보고 이렇게 생산된 유전체 자료 중 전사체 중심으로 기존 방법(Bulk) 분석 절차와 비교하여 설명하고자 한다. 마지막으로 단일 세포 전사 유전체를 이용하여 분석 가능한 생물학적 내용을 설명하고, 단일 세포 분석 시 생물정보 방법론의 향후 발전 방향성 대해서도 논의하고자 한다.

Ⅱ. 몸 말

1. 단일 세포 분리 및 시퀀싱 절차

사람의 조직 또는 혈액에서 단일 세포를 분리해서 유전체 서열 자료를 생성하는 절차는 Figure 1과 같다[5]. 먼저 조직 또는 혈액에서 세포 분리과정으로 세포 서스펜션을 진행하고, 세포의 크기순으로 정렬 또는 enrich 과정으로 단일 세포를 획득한다. 단일 세포를 획득하는 과정에서 시퀀싱 라이브러리 준비하는 과정까지는 튜브 기반의 절차를 거치는데 다음과 같다. 세포 하나에서 얻을 수 있는 DNA의 양은 picogram(pg, 10-12g)정도이므로 시퀀싱이 가능한 수십～수백 nanogram(ng, 10-9g) 수준으로 충분히 늘리는 증폭 과정이 필요하다. 이를 위해서 각 세포에서 DNA를 추축하여 PCR 과정(또는 MDA) 등을 통해서 증폭 DNA를 얻고, 이를 시퀀싱 라이브러리 제작하는 단계를 거친다. RNA의 경우에는 역전사 과정을 통해 cDNA를 얻고, PCR 과정(혹은, IVT → 증폭 RNA) 등으로 증폭 cDNA를 얻어 시퀀싱 라이브러리 제작하는 단계를 거친다. 각 세포로부터 제작되는 시퀀싱 라이브러리에는 바코드를 붙여 수십-수만 개의 샘플을 함께 시퀀싱 할 수 있으며, 시퀀싱 후 세포별 데이터 분리가 가능하다. 분석 과정에서는 주로 DNA의 경우 복제수 이상을, RNA의 경우 유전자 발현량을 측정하게 된다. 본 연구에서는 단일 세포 전사 유전체 분석과정에 대한 부분을 자세히 살펴보고자 한다.

2. 단일 세포 전사 유전체 분석 절차 및 활용

단일 세포를 이용하여 RNA 시퀀싱 과정을 통해서 얻어진 전사 유전체 자료를 분석하는 절차는 Table 1[6]과 같다. 먼저 기준 서열(사람의 경우 hg18, hg19 등)에 alignment를 위해 TopHat[7]과 GSNAP[8]와 같은 mapping tool을 이용하고, 얻어진 자료를 HTseq[9] 방법 등으로 유전자의 발현을 측정하는 절차를 수행한다. 다음으로 RNA 시퀀싱 질 관리(Quality control)를 통해서 실험 자료의 질적 정도를 파악하여 질이 나쁜 경우 분석에서 제외하는 절차를 진행한다. 기존의 bulk 시퀀싱 데이터의 경우 각 샘플 또는 세포 실험과정에서 발생할 수 있는 치우침 정도를 보정하기 위해 표준화를 수행하여 실험별 치우침을 보정하는 과정과 여러 번 또는 여러 사람이 수행하여 자료를 생산한 경우 batch 별 효과를 제어해주는 작업을 수행해야 된다. 이렇게 사전처리 작업을 통해 서 얻어진 전사 유전체 자료의 세포 타입 특성을 확인하기 위해 잠재성 변수 모델에 기반을 둔 군집화(clustering) 과정을 수행하여 세포 간(정상 또는 암)의 유사성을 확인하는 절차를 진행하다. 세포 간 또는 군집 간 특이 발현 유전자를 선별하는 절차는 edgeR[10], DESeq[11] 등의 통계학 방법으로 세포 간 또는 군집 간 발현의 차이를 보이는 유전자를 선별한다. 도입 초기에서는 단일세포 전사체 분석에 기존 데이터 분석툴이 사용되었지만 현재는 특화된 툴을 주로 사용한다.
단일세포 전사체의 경우 극소량의 초기 RNA(cDNA)를 증폭하므로, 많은 수의 유전자 발현이 검출되지 않는 “zero-inflated” 현상이 빈번하게 발생한다. 이는 각 세포가 가지는 생물학적 현상의 차이와 섞여 복합적인 데이터 패턴을 가지게 된다. 이러한 데이터 패턴 속에서 신호(signal)을 검출하기 위해 다양한 확률/통계적 모형들이 다양하게 제안되었고, 단일 세포의 발현 분석 프로그램에도 다수 적용되어 있다. 각 실험 조건이나 사용되는 세포의 특성을 최대한 반영하기 위해서, 정규화에 사용할 내부 유전자 군을 따로 정의해 사용하거나, 알려진 control RNA를 spike-in하는 방법, 또는 동일한 fragment에서 파생된 amplicon은 동일한 index sequence를 가지도록 고안된 UMI(unique molecular identifier) 방법도 다양한 변형을 통해 사용된다. Batch effect는 분석 단계에서 보정하는 것보다, 실험단계에서 이를 최소화하기 위해 노력하는 것이 훨씬 효과적이므로 최대한 동일 batch에서 실험될 수 있도록 디자인 하는 것이 중요하다. 단일세포 전사체 연구는 서로 다른 특성을 가지는 세포를 구별하기 위해서 수행하는 경우가 많다. 세포단위로 데이터가 생산되므로 다른 경우보다 데이터의 차원이나 복잡도가 더 큰 경우가 많다. PCA (principal component analysis)나 tSNE (t-distributed stochastic neighbor embedding)와 같은 알고리즘은 큰 차원의 데이터를 축소하여 시각적 해석에 도움을 주며, 전통적으로 사용되는 clustering기법도 특성별 분류를 시각화 하는데 도움이 된다. 0값이 매우 많거나, 이미지를 디지털화 하는 과정의 편이, 실험과정에 발생하는 알지 못하는 오류 등이 다양하게 개입되어 있어, 정규분포를 가정하고 진행하는 고전적인 통계분석법을 사용하지 못하는 경우가 많다. 따라서, 기존 데이터나 과거 데이터 등을 참조하는 Bayesian 모델이 많이 적용되기도 한다[12].

단일 세포를 이용한 전사 유전체 자료 분석의 경우 위에서 설명한 자료 분석 절차 중 기준 서열에 alignment 후 유전자의 발현을 측정과정 단계의 경우 기존의 bulk 세포들을 이용한 RNA 시퀀싱의 절차와 동일하다. 단일세포의 경우 UMI를 이용한 counting 방식이 증가하는 추세이다. 단일 세포 RNA 시퀀싱 분석 시 질 관리를 수행하는 과정에서 기존 bulk의 경우 라이브러리 질만 중점 관찰하지만, 단일 세포의 경우 각 단일 세포의 RNA의 양적 질적 부분이 저하되었는지의 여부 파악과 mapping된 서열 단편의 전체 백분율과 스파이크 된 분자의 mapping된 서열 단편의 비율을 통해 비정상적인 패턴을 가지는 단일 세포를 추후 분석에서 제외하는 과정이 추가된다. 표준화의 경우 일반적으로 유전자 길이를 이용한 depth 조절 방법(FPKM, scaling factor)을 사용할 때에는 단일 세포의 경우 세포 간 mRNA의 함량의 차이를 보정하는 절차와 일부 실험에서 발행하는 3‘ 편향 문제를 고려해야 된다. 차등발현 분석의 경우 단일세포 데이터 특징을 고려한 다양한 분석 패키지 이용이 가능하다. 마지막으로 전사체의 반응 속도나 변화를 파악하는 분석 과정은 기존의 bulk를 이용한 RNA 시퀀싱으로 확인이 불가하지만 단일 세포를 이용한 RNA 시퀀싱에선 파악이 가능하다.

Figure 2[13]와 같이 정상 세포들과 질병 세포들로부터 얻어진 단일 세포들을 시퀀싱을 한 후 앞에 설명한 여러 분석 단계를 수행하여 얻어진 유전자 발현 자료를 차원 축소 혹은 군집화 분석으로 유사한 발현의 세포 타입 간으로 집단화를 수행한다. 이렇게 얻어진 집단 정보를 이용하여 다양한 집단 간 비교가 가능하다. 첫째로 같은 집단 내(within cell type) 분석을 통해 전사의 확률 성, 가변성이 파악 가능하고, 조절 네트워크 추론을 할 수 있고, 대립 유전자 발현 패턴 분석이 가능하며, 전사의 법칙을 확장 할 수 있다. 두 번째로 세포 집단 간(between cell types) 분석을 통해서 세포 집단 간 차이를 보이는 바이오 마커 식별이 가능하고, (포스트)-전사 차이를 구분이 가능하다. 마지막으로 조직간 차이(between tissues)를 통해서 각 세포들의 세포 형 조성물이 어떤 차이가 있는지 확인 가능하고, 조직이 변형되면서 발생하는 전사체 발현의 차이를 확인 할 수 있다. 이와 같은 목적에 따른 분석에는 아직 정확한 가이드라인이 없어 분석자마다 서로 다른 분석법을 활용하고 있다. 다만, 신규 개발되는 단일세포 특화 분석 패키지가 늘고 있어 앞으로는 좀 더 보편화된 분석법이 나올 것으로 기대한다.

Ⅲ. 맺는 말

차세대염기서열 기술로 생산된 단일 세포의 특징은 증폭기술로 발생되는 특징과 기존 차세대염기서열 자료가 가지는 공통 특징이 혼합된 상태로 이 자료를 분석하는 데는 다양한 절차와 방법이 사용되고 있다. 이번 연구에서는 조직으로부터 단일세포를 분리하여 DNA, RNA를 추출하여 시퀀싱하는 절차를 소개하였다. 차세대염기서열로 생성된 RNA 유전체 분석 절차는 기준 서열에 alignment하여 유전자의 발현을 측정하는 절차, 질 관리를 통해서 실험 자료의 정도를 파악, 각 실험별 보정 절차인 표준화, batch 효과를 제어 과정, 잠재성 변수 모델 기반 군집화 과정, 특이 발현 유전자를 선별하는 절차, 유전자 간 조절 네트워크로 생물학적 현상을 파악과 전사체의 반응 속도 등을 추론한다. 각 절차마다 일반적인 RNA 시퀀싱(Bulk Cell)과 단일 세포 시퀀싱을 비교하여 설명하였다. 마지막으로 단일 세포를 이용하여 전사체 유전체 자료를 군집화 분석으로 얻어진 집단 내 분석(within cell type), 집단 간 분석(between cell types), 조직 간(between tissues) 분석을 통해서 다양한 생물학적 해석이 가능한 점을 확인하였다. 단일세포 전사체 자료의 특징 중 0값이 매우 많거나, 이미지를 디지털화 하는 과정의 편이, 실험과정에 발생하는 알지 못하는 오류 등이 다양하게 개입되어 있어, 정규분포를 가정하고 진행하는 고전적인 통계분석법을 사용이 어렵기 때문에 Bayesian 방법 등이 제안되어 사용되지만, 아직 해결되지 않은 부분인 증폭에 대한 보정과 결측치에 대한 생물정보학적 연구가 더 많이 필요하다.

Ⅳ. 참고문헌

1. Avery, O. T., et al. (1944) Studies on the chemical nature of the substance inducing transformation of pneumococcal types: induction of transformation by a desoxyribonucleic acid fraction isolated from Pneumococcus type III. J. Exp. Med. 79, 137-158
2. Amberger, J., et al. (2009) McKusick's Online Mendelian Inheritance in Man (OMIM). Nucleic Acids Res. 37, D793-D796
3. Tringe, S. G. et al. (2005) Comparative metagenomics of microbial communities. Science 308, 554-557
4. Gawad C. et al (2016) Single-cell genome sequencing: current state of the science. Nature Review 17, 175-188
5. Nawy T. (2014) Single-cell sequencing: A brief overview of how to derive a genome or tranome from a single cell. Nature methods 11(1), 18
6. Stegle O et al. (2015) Computational and analytical challenges in single-cell tranomics Nature Review Genetics 16, 133-145
7. Trapnell, C., et al. (2009) TopHat: discovering splice junctions with RNA-seq. Bioinformatics 25, 1105–1111
8. Wu, T. D., et al. (2010) Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics 26, 873–881
9. Anders, S., et al. (2015) HTseq — a Python framework to work with high-throughput sequencing data. Bioinformatics 31, 166–169
10. Robinson, M. D., et al. (2010) edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139–140 (2010).
11. Anders, S., et al. (2010) Differential expression analysis for sequence count data. Genome Biol. 11, R106
12. Bacher R and C Kendziorski (2016) Design and computational analysis of single-cell RNA-sequencing experiments. Genome Biol. 17, 63
13. Sandberg R. (2014) Entering the era of single-cell tranomics in biology and medicine. Nature methods 11(1), 22-24

첨부파일

본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.

TOP

사용자별 맞춤메뉴

자주찾는 메뉴

간행물·통계

contents area

주간건강과질병

detail content area