contents area
주간건강과질병
detail content area
전장유전체상관성분석 소개 및 전망
- 작성일2014-08-14
- 최종수정일2014-08-18
- 담당부서감염병감시과
- 연락처043-719-7166
전장유전체상관성분석 소개 및 전망
The Introduction and Prospect of Genome-Wide Association Study
The Introduction and Prospect of Genome-Wide Association Study
질병관리본부 국립보건연구원 유전체센터 바이오과학정보과
홍경원
Abstract
In the early 21st century, the completion of the reference human genome sequence has triggered the advance of high throughput genomics technologies and has expanded the human genetic epidemiology into genome scale epidemiology. The trend has accelerated by the increasing availability of mapped single nucleotide polymorphism (SNP) markers and improvements in genotyping technology, allowing for massive testing of genetic variantsin minimal time. The reductions in cost and time have made it feasible to conduct large-scale genome-wide association studies (GWAS) using the genotypes of many thousands of SNPs in thousands of individuals. So far, 1927 reports with 13,418 SNPs (GWAS catalogue on July 10, 2014: http://www.genome.gov/gwastudies) have been published to identify the gene-disease or non-disease trait associations. However, there has been considerable concern about the explanation power of GWASs, because they could explain only a small fraction of the associated trait’s heritability. The limited explanation power might be due to the complex pattern of genetic variants such as the rare or population specific variants, and gene-environment interactions in each individual or each ethnic group. In this review, I will introduce the GWAS overview, the interpretation methods, and the prospective.
I. 들어가는 말
21세기 초 인간게놈서열의 해독이 완료된 후부터 대규모, 대용량의 유전변이 연구기법(High throughput technology)들이 급속히 발전해 왔다. 그 중에서 단염기다형성(Single Nucleotide Polymorphism, SNP)을 대용량으로 마이크로어레이 칩(SNP microarray chip)에서 분석할 수 있는 기술 의 발전으로 적은 비용과 짧은 시간에 수십만 개의 SNP들의 유전자형을 결정할 수 있게 되었다. 그런 SNP chip을 이용하여 전장유전체상관성분석연구(Genome-Wide Association Study, GWAS)가 수행되었는데, 연구집단 내에서 임상 혹은 역학 변수들에 영향을 미치는 유전변이를 SNP chip 상에 존재하는 수십만 개의 SNP들 중에서 통계적 유의성을 바탕으로 선별해 내는 연구분야이다. 지난 10년 동안 급격하게 그 연구결과 발표들이 늘어났고, GWAS 연구를 통해서 발굴된 유전변이들은 현재 미국 인간유전체연구소(National Human Genome Research Institute, NHGRI)의 GWAS catalogue 사이트 (http://www.genome.gov/gwastudies/)와 GWAS central(http://www.gwascentral.org/)에서 검색할 수 있으며, 현재(2014년 7월)까지 보고된 GWAS 결과는 약 1,000가지의 임상 및 역학 표현형들에 대해서 총 1,927편의 논문과 약 1만 3천개의 유전변이들이 보고되어 있는 것을 확인할 수 있다. GWAS catalogue 사이트에서 한국인 혹은 한국인을 포함한 아시아인에 대한 GWAS 연구들을 약 50편 이상 찾을 수 있고, 대표적인 연구 논문들을 Table 1에 나열하였다.
본 총론에서는 GWAS 연구에 대한 소개와 생물정보학적인 GWAS 결과 해석방법을 소개하고, GWAS의 한계와 미래 전망을 제시하고자 한다.
II. 몸 말
전장유전체 상관성 분석(GWAS)
단염기다형성(SNP)은 DNA 염기서열 중에서 하나의 서열에 돌연변이가 생겨서 다른 서열로 치환되고, 이후 집단 내에서 일정한 빈도로 존재하는 유전변이 이다. GWAS는 보통 10만 개에서 100만 개 이상의 SNP들을 마이크로어레이 실험을 통해서 개개인의 SNP 유전자형(Genotype)들을 결정하고, 그렇게 결정되어진 유전자형들 중에서 질병이나 특정표현형과 동시에 존재하는 확률을 계산해서, 가장 유의성이 높게 유전자형-표현형의 관련성을 나타내는 SNP를 발굴하는 분석이다[1].
수십만 개의 유전변이를 이용해서 하나의 표현형에 대해서 통계적인 시험을 하는 방법이기 때문에, 통계적으로 다중비교의 오류가 생기게 된다. 예를 들어, 1개의 SNP와 1개의 표현형을 시험했을 때 보통 통계적인 유의성이 5%이하가 되면 관련성이 있는 것으로 정의할 수 있다. 그런데, 같은 표현형에 대해서 여러 개의 SNP들을 시험하게 되면, 통계적으로 중복비교의 문제가 발생하게 되고, Bonferroni correction이나 FDR correction이라는 통계적인 보정기법을 이용하여 결과를 보정하게 된다. 만약 50만개의 SNP를 하나의 표현형에 대해서 분석을 한다면, 중복비교에 대한 보정을 한 이후에 1 × 10-7 이하의 유의수준을 보이는 경우에 그 SNP를 유의한 유전변이로 판정하게 된다. 그러나 이런 엄격한 통계 기준을 통과한 유의한 SNP들도 집단 간 혹은 인종 간에 그 영향의 차이가 있을 수 있다.
최근의 GWAS는 집단 혹은 인종간의 차이를 보완하기 위해 여러 집단에서 재현성 시험을 통과해야만, 최종적으로 유의성이 있는 유전변이로 결정되게 된다. 이런 단계들을 거쳐서 최종적으로 밝혀진 유전변이들은 GWAS catalogue(http://www.genome.gov/gwastudies) 라는 사이트에서 확인할 수 있다.
GWAS 분석 결과의 생물정보학적인 해석
GWAS를 통해서 발굴되는 SNP들은 그 자체로써 표현형에 영향을 미치는 원인유전변이인 경우도 있고, 다른 유전변이들에 대한 표지자로서의 역할을 할 수도 있다. 표지자로서 역할을 하는 유전변이의 경우는 실제적인 원인유전변이와 높은 연관불평형 관계 (Linkage Disequilibrium, LD)상태에 있는 것으로 해석된다. 여기서, 연관불평형이란 두 개의 SNP들의 게놈상의 위치를 고려하면 생식세포의 분열 시에 둘 사이에 교차(Crossing over)가 일어나서 각각 유전될 수 있지만, 같이 유전되는 확률이 높은 경우를 말한다. 이런 연관불평형을 이용한 해석은 해당 연구에서 분석된 표현형과 기존에 보고된 표현형 간에 내재하는 유전적인 기전이 동일할 수 있음을 보여주는 것으로 표현형에 대한 이해를 높일 수 있다.
GWAS 결과의 해석은 유전변이의 위치에 대한 생물정보학적인 분석을 통해 SNP의 기능적인 부분을 해석하거나, 발굴된 유전변이에 대한 분자생물학적인 기능실험을 통해서 기능적인 연관성을 확인하기도 하고, 환자 시료 등 임상시료에서 그 영향을 확인하는 수준까지 발전하는 경우도 있다. 본 총론에서는 생물정보학적인 분석을 통한 SNP의 기능적인 부분에 대한 해석에 초점을 맞추어 설명할 예정이지만, 분명한 것은 기능분석에 대한 궁극적인 증명은 세포나 동물모델, 더 나아가 임상실험을 통하여 검증하는 것이 가장 확실한 방법이다.
생물정보학적인 해석방법의 첫 번째로, 발굴된 SNP와 기존에 보고되었던 GWAS 결과들의 관련성을 보는 방법이다. 이는 단순히 발굴된 SNP와 기존의 GWAS SNP가 동일한 것인지를 확인하는 것뿐만 아니라, LD 정보를 이용하여 발굴된 SNP와 보고된 SNP가 동일하지는 않지만, 두 SNP들이 높은 LD를 보이는 경우에는 발굴된 SNP와 LD상에 있는 보고된 SNP는 같은 유전적인 영향력을 가지는 것으로 생각할 수 있다.
이러한 기존의 GWAS SNP와 연구를 통해 새롭게 발굴한 SNP간의 LD관계를 이해하기 위해서는 SNAP, LocusZoom, Haploview 등의 소프트웨어를 이용하여 SNP들 간의 LD관계를 계산하고, GWAS catalogue의 해당 SNP들에 대한 기존 보고를 확인하여야 한다. 본 부서에서는 이러한 연관불평형을 이용한 분석을 쉽게 하기 위해서 GwasLD(http://www.sourceforge.net/)라는 프로그램을 개발하였으며, GWAS를 통해 발굴된 유전변이들의 해석에 유용하게 사용될 것으로 생각된다. 예를 들면, Figure 1에서 rs73282209 라는 SNP가 Crohn's disease의 GWAS를 통해 처음 찾아졌다고 가정하면, 현재까지 보고된 GWAS 결과들에는 rs73282209는 보고된 적이 없지만, LD상에 있는 rs100113, rs11741861 등의 SNP들이 보고되어 있고, 그들은 Crohn's disease나 Inflammatory bowel disease에서 보고가 있었던 것을 빠르게 확인할 수 있다. 본 프로그램을 사용하려면 인터넷에서 위에 명시한 surceforge.net으로 접속한 후, 검색창에서 GwasLD를 넣어 엔터를 치면 해당 프로그램이 검색된다. 이 프로그램을 다운로드 받아 압축을 풀어 실행시키면 되는데, 참고로 자바가 설치되어 있어야 프로그램이 실행된다.
다음으로는, SNP가 위치하는 부위에서 근접하게 존재하는 유전자들에 대해서 해당 표현형과 관련성을 찾는 방법이다. 이 방법은 근접한 후보유전자가 연관성이 있는 SNP와 LD 관계에 있는 경우에는 유전자에 의한 표현형과 SNP와의 관련성이 더욱 높을 것이나, LD 관계가 없는 경우라 하더라도 기능분석의 후보로 분석이 많이 진행되었고, 실제 표현형에 영향을 미치는 유전자들이 밝혀지고 있다. 예를 들어, 한국인에서 대규모 GWAS를 통해서 보고되었던 여덟 가지의 정량적인 형질들에 대한 분석결과에서, 혈압에 영향을 미치는 유전변이로 rs17249754라는 SNP가 보고되었다[2]. 그 보고에서, 후보유전자로 가장 근접하게 위치하는 ATP2B1이라는 유전자가 보고되었는데, 이후에 ATP2B1 유전자에 대해서 혈압과의 기능적인 연관성들이 실험을 통해서 증명되었다[3]. 그 반대로, 유럽인과 미국인의 저밀도콜레스테롤 농도에 대한 GWAS에서 찾아진 SNP(rs12740374)는 위치적인 근접성으로 후보유전자를 찾는다면 CELSR2라는 유전자의 3' 비번역부위(3' untranslated region, 3'UTR)에 위치하기 때문에 CELSR2가 후보유전자로 처음 보고되었다. 그러나 SNP의 기능연구를 통해서 그 SNP가 실제 조절하는 유전자는 약 3만 4천 base pair 떨어진 SORT1이라는 유전자의 발현을 조절하는 것이 확인되었다[4]. 결론적으로 SNP와 유전자의 위치적인 근접성에 의한 후보유전자 판단은 그 가능성을 배제할 수는 없으나 위험성은 있다. 이러한 부분은 특히 최근에 GWAS 결과에 연계하여 네트워크 분석이나 시스템적인 분석을 시도하는 경우가 많은데, 단순한 위치적인 근접성을 통해서 발굴된 후보유전자들을 이용하는 경우 많은 주의를 요하는 것으로 판단된다.
세 번째로, ENCODE(Encyclopedia of DNA elements) 프로젝트의 결과를 활용하는 해석이다. ENCODE 프로젝트는 인간 유전체서열에 존재하는 모든 기능적인 요소들을 발굴하기 위한 대규모 국제 협력프로젝트로서, 2012년 9월에 프로젝트의 결과물들을 발표하였다[5]. Figure 2에 ENCODE에서 수행된 분석들이 정리되어 있다. RegulomeDB(http://www.regulomedb.org) 라는 데이터베이스는 SNP의 검색을 통해서 ENCODE 프로젝트의 결과물들과 SNP의 관련성을 이해할 수 있는 정보를 제공해 준다[6]. SNP가 위치하는 부위에서 ENCODE 프로젝트의 결과인 전사인자결합부위, 크로마틴 구조변화, 히스톤 단백질 메틸화 혹은 아세틸화 등의 정보가 존재한다면, 그 SNP는 유전자 발현 조절에서 역할을 추정할 수 있다. 추가적으로, RegulomeDB는 유전자 발현과의 관련성 여부를 알 수 있는 expression quantitative trait loci (eQTLs) 정보를 함께 제공한다. eQTL은 SNP의 유전자형에 따라서 어떤 유전자의 발현이 같이 변화되는 경우, 그 SNP를 유전자의 eQTL이라고 부르게 된다.
RegulomeDB에는 약 30,000개 정도의 SNP들이 eQTL에 속하고, GWAS 결과물 중에서 eQTL에 속하는 SNP들이 있다면 SNP의 기능과 SNP에 의해 조절되는 후보유전자를 확인할 수 있는 유용한 정보가 된다.
마지막으로, 발굴된 SNP의 인종 간 대립인자 빈도를 비교하거나, 인간과 영장류들 내에서 SNP 부위의 보존정도를 확인함으로써, 해당 SNP의 인종 특이적인 관련성 여부 및 진화적인 중요성을 이해할 수 있다. 이러한 대립인자의 빈도나 진화적인 중요성은 Ensembl(http://www.ensembl.org/index.html) 웹 브라우저를 이용하면 쉽게 분석이 가능하다.
GWAS의 한계점 및 극복 방안
오랜 기간 GWAS의 연구결과들이 축적되면서 전문가들은 GWAS가 가지는 한계점들을 지적해 왔다. 첫째, Table 1에 나열된 GWAS 연구들을 통해서 발굴된 유전변이들의 약 90%는 유전자의 인트론 영역이나 유전자가 없는 영역에 위치하는 변이들로, 이들은 유전자의 발현 조절에 영향을 미치거나 혹은 실제 기능적인 유전변이(표현형에 영향을 미치는 유전변이)와 단순히 연관성이 높아서 찾아진 경우가 대부분이다. 둘째, GWAS 연구에 사용되어지는 유전변이들은 대부분 집단 내에서 1% 이상의 빈도를 가지는 공통유전변이(Common variant)를 이용해서 분석하게 되는데, 이러한 공통유전변이만으로는 표현형에 영향을 미치는 모든 유전변이를 발굴하기 어렵다. 셋째, GWAS를 통해서 발굴된 유전변이의 유전적 영향력(effect size)이 너무 작다.
이러한 한계점들을 극복하기 위해 다양한 연구전략들이 제시되고 있는데, 최근에 가장 큰 이슈가 되는 연구전략은 차세대 염기서열 해독방법(Next Generation Sequencing, NGS)을 활용하여 집단 내에서 저빈도(1% 미만)로 존재하는 유전변이들까지 포함한 모든 유전변이를 발굴하고 표현형과의 관련성을 보는 방법이다. 질병관리본부의 유전체센터는 2009년부터 10여 편의 GWAS 연구결과를 Nature나 Science와 같은 최상위 저널들에 발표해 왔고, 당뇨병이나 고혈압 같은 만성질환들에 대한 유전변이들을 발굴해 왔다. 그리고 위에서 언급한 한계점들을 극복하기 위해서, 2012년부터 한국인 참조유전체 서열해독 프로젝트(Korean Reference Genome Project, KRG)를 진행해 오고 있다. KRG에서는 총 600여 명의 샘플에서 전장 유전체 서열을 해독하였고, 한국인이 가지는 유전변이들의 데이터베이스(KRGDB)를 구축하고 있다(2014. 8 웹서비스 개시 예정). 이 후, KRG에서 발굴한 유전변이들을 활용하여, 기존에 사용되었던 GWAS의 SNP chip의 밀도를 높인다면 원인유전변이 발굴이 가능해질 것으로 예상된다. 또한, NGS 방법 이외에도 전사체나 대사체 등 다양한 Omics 자료를 활용하여 GWAS 결과를 보완하거나 GWAS 결과를 분자들간의 관련성 분석(pathway 분석) 혹은 대사체간의 관련성 분석(Metastasis 분석)등의 통합적인 분석을 통해서 GWAS의 한계를 극복할 수 있을 것으로 사료된다.
III. 맺는 말
처음 GWAS 분석방법은 대규모 SNP를 분석하고, 일반 유전학자들에게는 익숙하지 않은 명령어 입력방식의 소프트웨어를 이용하고, 또한 높은 유의성 기준을 요구함으로써, 굉장히 어려운 연구 분야로 인식되었다. 그러나 점점 분석기술이 일반화되고, 소프트웨어들 및 데이터베이스들이 많이 생겨나면서, 컴퓨터에 익숙하지 않은 유전학자들이나, 임상의사들 그리고 대학원생들까지 분석할 수 있는 분야로 일반화된 유전학 분석기법의 하나가 되어가고 있다. 결론적으로, GWAS는 앞으로 GWAS 분석만으로 독자적인 연구가 되기보다는 다른 기존의 연구과제들에서 선행적인 연구로 인식되어, 일반적인 생명과학 연구과정의 한 단계로서 쓰이게 될 것이라 생각한다.
IV. 참고문헌
1. Kruglyak, L. 1999. Prospects for whole-genome linkage disequilibrium mapping of common disease genes. Nat Genet. 22: 139-44.
2. Cho,Y.S. et al. 2009. A large-scale genome-wide association study of Asian populations uncovers genetic factors influencing eight quantitative traits. Nat Genet. 41: 527-34.
3. Shin, Y.B. et al. 2013. Silencing of Atp2b1 increases blood pressure through vasoconstriction. J Hypertens. 31: 1575-83.
4. Musunuru, K. et al. 2010. From noncoding variant to phenotype via SORT1 at the 1p13 cholesterol locus. Nature. 466: 714-9.
5. ENCODE Project Consortium. 2012. An integrated encyclopedia of DNA elements in the human genome. Nature. 489: 57-74.
6. Boyle, A.P. et al. 2012. Annotation of functional variation in personal genomes using RegulomeDB. Genome Res. 22: 1790-7.
7. http://genome.ucsc.edu/ENCODE/aboutScaleup.html
본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.