본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

한국인 칩 사업 소개
  • 작성일2015-07-16
  • 최종수정일2015-07-16
  • 담당부서형질연구과
  • 연락처043-719-7166
한국인 칩 사업 소개
The Korea Biobank Array Project


질병관리본부 국립보건연구원 유전체센터 형질연구과
김영진, 문상훈, 김봉조

Abstract


BACKGROUND Next Generation Sequencing (NGS) has become an essential tool for genome analysis. However, a computation-intensive process and relatively high costs are major obstacle for NGS to be applied in a large-scale population based genetic study. Alternatively, low cost customized genotyping chips have been widely used to explore hidden genetics of diseases. For example, MetaboChip was designed to study metabolic, cardiovascular, and anthropometric traits. Exome array targeted functional exonic varaints that were retrieved from about 12,000 exomes and genomes. In addition, biobank arrays such as a custom array for Kaiser Permanente/UCSF genotyping project and UK biobank array have been introduced to perform genome-wide association study on complex traits by genotyping more than tens of thousands of samples.
METHODOLOGY In this context, Korea National Institute of Health of the Korea Centers for Disease Control and Prevention has initiated the Korea Biobank Array project in 2014. The Korea Biobank Array project aims to develop a low-cost, customized chip that is optimized for genetic studies on diseases and complex traits in the Korean population. Given accumulated Korean genome information in the last six years (2008-2013), the Korea Biobank Array contains tagging SNPs that maximize genomic coverage and functional SNPs such as nonsynonymous, eQTL, and previously known reported disease associated SNPs.
RESULTS Korea National Institute of Health developed the Korea Biobank Array containing about 830,000 SNPs. The Korea Biobank Array achieved 99.77% of reproducibility and 99.73% of accuracy which are higher than those of widely-used commercial arrays (99.5% of reproducibility and 99.5% of accuracy). At the first stage of the Korea Biobank Array project that will be completed in late 2015, genotyping of 35,000 cohort samples from Korea Biobank Network will be undertaken.



I. 들어가는 말


  서로 다른 사람은 서로 간에 99% 이상 동일한 유전정보를 가지고 있으나, 약 1%는 서로 다른 정보를 가지고 있다. 이렇게 서로 다른 유전정보를 가지고 있는 것을 유전변이(genetic variation)라고 하며 머리카락, 눈동자 등의 표현형과 다양한 질병에 영향을 주는 것으로 알려져 있다. 이중 인간 유전체에 가장 많이 존재하는 변이는 단일염기다형성(Single Nucleotide Polymorphism, SNP)이며, 유전체 염기서열에서 약 100-300개당 하나씩 다르다[1]. 최근 전장유전체 연관분석 연구에서는 수십만 개 이상의 SNP 정보를 이용하여 질병과 연관된 유전 지역을 대량으로 발굴하고 있다. 질병관리본부 국립보건연구원에서는 지난 10년간 전장유전체 연관분석을 수행하여 한국인에서 나타나는 제2형 당뇨, 고혈압 및 관련 위험인자에 관련된 유전인자를 다수 발굴하였다. 이러한 연구는 전 세계적으로 활발히 진행되고 있으며 2015년 2월까지 질병 연관 유전변이 데이터베이스인 GWAS catalog에는 약 1만 5천개의 질병과 연관된 SNP가 등록되어 있다.

수십만 개 이상 대량의 SNP 정보를 얻는 연구 방법으로는 크게 두 가지가 있다. 첫째는 SNP 마이크로어레이 칩(SNP microarray chip, SNP칩)이다. SNP칩은 동전 크기보다 작은 크기로 제작된 반도체칩으로 하나의 반도체칩에서 수십만 개 이상의 유전변이 정보를 확인할 수 있다. 둘째는 차세대염기서열분석 기법(Next Generation Sequencing, NGS)이다. NGS는 인간게놈 프로젝트(Human Genome Project)가 1990년부터 약 10년간 30억 염기서열을 해독한 것을 일주일 안에 확보할 수 있는 획기적인 유전체 분석 기법이다.

그러나 최근 연구 결과에 따르면 기존 상용 SNP칩은 서양인 중심으로 설계되어 있어 아시아인에 대한 유전체 대표성이 낮다[2]. 또한 최근 차세대염기서열분석으로 새롭게 발굴된 SNP 정보를 포함하지 않고 있어 질병에 연관된 새로운 유전 지역을 발굴하는 데 한계점을 가지고 있다. 대안으로 NGS를 사용할 수 있으나 SNP칩에 비해 최소 5배 이상의 비용이 발생하며 고강도의 컴퓨터 계산력 및 전문 인력을 요구하고 있어 수만 명 이상 규모의 연구가 필수적인 복합질환 연구를 위해서는 효율적인 방법으로 사용할 수 없는 실정이다(Table 1). 이러한 한계점을 극복하기 위해 유전체 연구 선진국에서는 최신 SNP 정보를 포함하고 자국민 유전체 정보에 최적화된 바이오뱅크 어레이(biobank array)를 개발하여 사용하고 있다[3].

기존 상용 SNP칩과 NGS의 문제점을 극복하기 위해서 최근 다양한 차세대 SNP칩(Next-Generation SNP chip)이 개발되어 사용되고 있다. 이러한 차세대 SNP칩은 사용자화 칩(Customized chip)으로 특정 연구 목적 등에 맞추어 실제 사용자가 요구하는 SNP 컨텐츠를 포함하여 제작되는 것이 특징이다 (Table 2). 최근 차세대 SNP칩을 이용하여 활발히 연구가 진행되고 있으며 혈당, 심혈관 질환 등에 연관된 신규 유전변이를 발굴하여 보고한 바가 있다[4, 5]

특히 UK Biobank array와 Kaiser Permanente/UCSF array는 NGS를 통해 발굴된 SNP 정보들을 기반으로 하여 영국, 미국 유전체 연구에 최적화되어 제작된 맞춤 칩이다. 이렇게 제작된 맞춤 칩은 기존 상용 칩보다 특정 인종의 유전체 연구를 위해 최적화되며 대량으로 생산되는 경우 기존 상용 칩보다 더 적은 예산으로 같은 양의 정보를 생산할 수 있어 연구 효율 및 예산 절감 효과를 가지고 있다.
질병관리본부 국립보건연구원에서는 한국인 질병 유전체 연구에 최적화된 한국인 칩 개발 및 생산을 위해 한국인 칩 사업을 2014년도부터 수행하고 있다. 이 글에서는 한국인 칩 사업과 2014년도에 제작된 한국인 칩에 대해 소개하고자 한다.

II. 몸 말


  질병관리본부 국립보건연구원에서는 한국인 질병 유전체 연구에 최적화된 한국인 칩 제작 및 생산을 위해 2014년도부터 한국인 칩 사업을 수행하고 있다. 기존에 생산된 한국인 NGS 정보, SNP 칩 정보를 기반으로 2014년도에 약 83만개의 SNP 정보를 담은 한국인 칩을 제작하였다. 연구 활용성이 높고 정교한 한국인 칩 제작을 위해 관련 분야 전문가를 초빙하여 자문을 받았다. 2014년 4월에 한국인 칩 사업 설명회를 시작으로 2014년도에 총 5회의 설명회 및 자문회를 개최하였으며 한국인 칩에 포함될 SNP 컨텐츠에 대한 전문가 자문과 의견을 최종 제작 시에 반영하였다. 한국인 칩 컨텐츠는 크게 2가지로 구성되었다. 첫째로 유전체 대표성 확보를 위한 SNP 정보를 포함하였으며, 둘째로 단백질 기능에 영향을 줄 것으로 예상되는 SNP, 기존 연구를 통해 질병에 연관된 것으로 보고된 SNP 등 기능 유전변이를 포함하고 있다. 한국인 칩의 특성은 Table 3에 요약되어 있다.

한국인 칩은 한국인 유전체 대표성을 최대한 확보하기 위한 SNP 정보를 포함하고 있다. 유전체에 존재하는 SNP 중 일부는 주변의 유전 지역을 대표할 수 있는 특성을 가지고 있다. 이러한 SNP을 tagging SNP이라고 한다. Tagging SNP은 주변에 있는 다수의 SNP와 높은 상관성을 가지고 있다. 따라서 수십 개의 SNP을 가지고 수천 개 이상의 SNP이 있는 주변 유전 지역을 대표할 수 있다. 최근에는 imputation 기법을 활용하여 수십 개의 tagging SNP을 가지고 해당 유전 지역의 수천 개 이상의 SNP을 예측함으로써 정보를 확장하고 이를 연구에 활용하고 있다[6]. 한국인 칩은 1000 genomes project의 아시아인 NGS 정보(중국인, 일본인 286명)와 한국인 염기서열정보 약 2천명 이상에서 추출한 SNP 정보를 이용하여 한국인 유전체에 존재하는 SNP을 대표하는 tagging SNP을 추출하였으며 이를 한국인 칩에 포함하였다. 현재 제작된 한국인 칩의 유전체 대표성은 빈도 5% 이상 SNP에 대해 약 95%를 확보할 수 있었다.

한국인 칩에는 다양한 기능 유전변이를 포함하고 있다. 기존에 수행되었던 전장유전체연관 분석은 대부분 유전자 간 지역(intergenic)이나 비발현 부위(intron)에서 질병에 연관된 SNP을 발굴하였다. 이는 기존의 상용 칩에 유전자 발현에 관계되어 단백질 형성 등에 영향을 미치는 SNP을 많이 포함하고 있지 않기 때문이었다. 한국인 칩에는 NGS를 통해 대량으로 발굴된 단백질 형성에 영향을 주는 것으로 보이는 SNP 정보를 포함하였다. 또한 기존 전장유전체연관 분석을 통해 발굴되고 논문으로 보고된 SNP를 포함하여 서양인 중심으로 수행된 기존의 전장유전체연관 분석 결과를 한국인에서 재확인할 수 있도록 하였다. 그 외 유전자 발현과 높은 상관성을 보이는 eQTL (expression-QTL) SNP과 약물반응에 연관되어 있는 SNP 정보를 포함하였다. 이러한 기능 유전변이를 연구를 통해 제2형 당뇨, 고혈압 등 복합질환 연관 SNP을 대량으로 발굴할 수 있을 것으로 기대된다.

한국인 칩은 SNP 정보를 확보하기 위해 정교하게 제작되었다. 특히 기존에 널리 사용되는 상용칩 수준의 재현성과 정확성을 확보하였다. 재현성은 두 번 이상 반복된 실험에서 동일한 SNP 정보가 동일하게 확보되는지를 확인하는 것이다. 정확성은 해당 칩에서 생산된 SNP 정보가 다른 실험을 통해 SNP 정보와 동일한지 여부를 확인하는 것이다. 정교한 연구 수행을 위해서는 재현성과 정확성 확보가 필수적이다. 2014년에 제작된 한국인칩은 재현성 99.77%, 정확성 99.73%를 확보하였으며 이는 기존에 널리사용되는 상용칩의 재현성 기준 99.5%, 정확성 99.5% 보다 높은 수치이다.

III. 맺음말

  이번에 제작된 한국인 칩에 담긴 유전변이 정보는 2008년부터 2013년까지 국립보건연구원의 “한국인유전체분석사업” 등을 통해 발굴한 한국인 특이적 유전체 정보 및 만성질환 관련 유전변이 정보 등을 반영하여 제작되었다. 특히 기존 상용 칩을 사용하여 한국인 유전체를 연구하는 경우 약 70%의 SNP 컨텐츠만 활용 가능하였으나 한국인 칩을 이용하는 경우 최대 95%까지 활용 가능할 것으로 기대된다. 또한 기존 상용 칩 대비 최대 5배까지 적용 비용으로 SNP 정보를 생산할 수 있어 예산 절감 효과로 인한 유전체 연구 효율성 증대가 예상된다. 질병관리본부 국립보건연구원에서는 개발된 한국인 칩을 이용하여 국립중앙인체자원은행에 보관된 한국인 인구집단 코호트 시료 3만 5천명분의(2014-2015년 2년간) 유전체 정보를 생산할 계획이다.

IV. 참고문헌


1. Gibbs, R. A., Belmont, J. W., Hardenbol, P., Willis, T. D., Yu, F., Yang, H., et al. (2003). The International HapMap Project. Nature, 426(6968), 789-796. doi:doi:10.1038/nature02168
2. Wong, L.-P., Ong, R. T. H., Poh, W.-T., Liu, X., Chen, P., Li, R., et al. (2013). Deep Whole-Genome Sequencing of 100 Southeast Asian Malays. The American Journal of Human Genetics, 92(1), 52-66. doi:10.1016/j.ajhg.2012.12.005
3. Hoffmann, T. J., Kvale, M. N., Hesselson, S. E., Zhan, Y., Aquino, C., Cao, Y., et al. (2011). Next generation genome-wide association tool: Design and coverage of a high-throughput European-optimized SNP array. Genomics, 98(2), 79-89. doi:10.1016/j.ygeno.2011.04.005
4. Exome array analysis identifies new loci and low-frequency variants influencing insulin processing and secretion. (2012). Exome array analysis identifies new loci and low-frequency variants influencing insulin processing and secretion, 45(2), 197-201. doi:10.1038/ng.2507
5. Morris, A. P., Voight, B. F., Teslovich, T. M., Ferreira, T., Segrè, A. V., Steinthorsdottir, V., et al. (2012). Large-scale association analysis provides insights into the genetic architecture and pathophysiology of type 2 diabetes. Nature Genetics, 44(9), 981-990. doi:10.1038/ng.2383
6. Fast and accurate genotype imputation in genome-wide association studies through pre-phasing. (2012). Fast and accurate genotype imputation in genome-wide association studies through pre-phasing, 44(8), 955-959. doi:10.1038/ng.2354

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP