본문으로 바로가기 주메뉴 바로가기
이 누리집은 대한민국 공식 전자정부 누리집입니다.

간행물·통계

contents area

detail content area

엑솜(exome)데이터를 이용한 유전자 구조 변이 발굴 연구
  • 작성일2012-12-07
  • 최종수정일2012-12-14
  • 담당부서질병관리본부
  • 연락처043-719-7164
엑솜(exome)데이터를 이용한 유전자 구조 변이 발굴 연구
Detecting structural variation using exome data

질병관리본부 국립보건연구원 유전체센터 형질연구과
황미영


Ⅰ. 들어가는 말

  인간의 유전체 염기서열을 비교해 보면 어떤 사람은 다른 사람에 비해 특정 유전자의 일부가 결실(deletion)되거나 삽입(insertion)되는 유전변이가 일어난다. 이러한 유전변이를 유전자 구조변이(structural variation, SV)라고 하는데 이 유전자 구조변이가 유전병을 비롯한 암, 췌장염, 전신성홍반성낭창, 자폐증 등 여러 질병의 원인이 될 가능성이 높다고 보고되고 있다. 일반적으로 유전자 구조변이에는 유전자 복제수변이(copy number variation, CNV), 삽입-결실(insertion-deletion, indel), 역위(inversion), 전좌(translocation) 등을 포함한다[1]. 특히, 참조 유전체(reference genome)와 비교해서 복제수의 변화를 보이는 DNA 조각으로 정의하는 유전자 복제수변이는 유전체에서 관찰되는 유전자 구조적변이 중에서도 가장 흔하여 암과 같은 복합질환을 이해하는데 이용되고 있다. 초기 유전자 구조변이 연구는 어레이 CGH(comparative genomic hybridization) 칩과 SNP(single-nucleotide polymorphism) 어레이 칩 등을 이용하여 연구하였다. 그러나 어레이 칩을 이용한 방법들은 유전자 구조변이의 발생위치 즉, 양 끝단(break-point)을 정확하게 찾지 못하였으며 작은 크기(<1kb)의 유전자 복제수변이를 발굴하기 어려운 단점이 있었다.
  이러한 문제점을 해결하기 위해서 최근 다양한 분야의 연구에서 각광받고 있는 차세대 염기서열 분석(next generation sequencing, NGS) 기술을 이용하여 유전자 구조변이를 발굴하는 기법이 등장하고 있다. 새로운 기술의 등장으로 인해 기존의 어레이 칩 분석방법이 가지고 있던 이미 디자인된 탐침(probe)의 위치와 밀도에 따라 분석의 능력이 현저하게 달라지는 문제가 해결되었으며, 이 방법으로 발굴하지 못했던 전좌 혹은 역위와 작은 크기의 유전자 복제수변이의 발견이 가능해졌다[2].
  한편, 차세대 염기서열 분석법을 이용한 유전체 분석방법에는 유전자 서열을 모두 읽어 분석하는 전장유전체 염기서열 분석(whole genome sequencing, WGS) 방법과 유전체에 존재하는 엑손(exon) 부위를 선별하여 분석하는 엑솜 염기서열 분석(exome sequencing) 방법이 있다. 엑솜 염기서열 분석은 전장유전체 염기서열 분석에 비해 가격이 저렴하고 분석시간이 적게 소요된다. 또한 기능적인 유전자가 위치하는 부분이기 때문에 해당 부분에서 일어난 변이는 질병의 발생과 직접적으로 연관되어 있는 경우가 많아 다양한 질병의 직접적인 원인변이를 찾기에 유용한 분석방법이다. 하지만 엑솜 염기서열 분석은 엑손 부위를 중심으로 분석하여 큰 크기의 유전자 구조변이를 발굴하기 힘들며 최근 염기서열 분석 비용이 급격하게 감소함에 따라 엑솜 염기서열 분석보다 전장유전체 염기서열 분석으로 전환하려고 하는 추세이다. 따라서 이 글에서는 유전자 구조변이의 종류 및 엑솜 염기서열 분석을 이용한 질환연관성 연구에 대해 기술하고 유전자 복제수변이 분석연구에 있어서 엑솜 염기서열 분석방법이 가지는 장점과 단점 그리고 그에 따른 해결 방안 등에 관해 논의하고자 한다.


Ⅱ. 몸 말

  차세대 염기서열 분석에는 싱글-엔드 라이브러리(sigle-end library)와 페어드-엔드 라이브러리(paired-end library) 방법이 있으며, 페어드-엔드 라이브러리 방법은 참조 유전체 시료에 샘플 유전체(sample genome) 시료의 두 서열단편을 매핑(mapping)하고 두 유전체 시료를 비교하기 때문에 유전자 구조변이를 발굴하는데 더욱 유용하게 사용될 수 있다. 유전자 구조변이의 종류는 크게 결실, 삽입, 중복(duplication), 역위, 전좌로 정의된다(Figure 1). 결실은 참조 유전체의 서열이 결실되어 샘플 유전체가 더 짧게 매핑된 것이며, 삽입은 그와 반대의 경우로 샘플 유전체의 서열이 삽입되어 참조 유전체에 매핑된 길이가 짧다. 중복은 참조 유전체와 샘플 유전체의 동일한 서열이 샘플 유전체 어딘가에 더 생성된 것이며, 역위는 샘플 유전체의 서열 순서는 그대로이지만 매핑된 방향에 변화가 있다. 마지막으로 전좌는 서열단편이 다른 염색체에 매핑된 것이다[2, 3].
  이러한 다양한 유전자 구조변이의 종류로 인해 암, 자폐증 등 여러 질병의 원인이 될 가능성이 높다고 보고되고 있다. 특히, 멘델리안 질환의 경우 엑솜에서 발생한 유전자 변이가 질병의 직접적인 원인이 될 수 있기 때문에 이러한 종류의 질병 연구에 있어서 전 세계적으로 전장유전체 염기서열 분석보다는 분석비용이 저렴하고 효율성 높은 엑솜 염기서열 분석을 하는 추세이다. 또한 엑솜 염기서열 분석을 통해 다양한 암의 발병 원인을 규명하고자 하는 연구가 이루어지고 있다. 예를 들면, PTEN 유전자는 종양억제유전자(tumor suppressor gene)로서 정상세포에 존재하면서 기능을 유지하지만 이 유전자가 그 기능을 상실하면 종양이 유발되게 된다. 즉, 무분별한 세포의 분열과 성장을 억제하는 기능을 가져 암의 억제과정에서 중요한 역할을 하는 유전자이다. 전립선암이 발생된 환자의 엑솜 염기서열 분석과 어레이 칩 분석결과에서 PTEN 유전자를 포함하는 지역이 결실된 것이 보고된 바 있다(Figure 2)[4].
  현재 질병관리본부 국립보건연구원 유전체센터에서는 한국인 200명을 대상으로 페어드-엔드 라이브러리를 이용한 엑솜 염기서열 분석을 진행 중이다. 특히 다양한 유전자 구조변이 가운데 유전자 복제수변이에 관한 연구를 진행하고 있으며, 현재까지 결실 9,457개와 중복 627개 총 10,084개의 복제수변이가 발굴되었다(Table 1). 발굴된 유전자 복제수변이의 길이가 80% 이상이 300bp 이하로(Figure 3), 기존 칩 기반의 데이터로 발굴하기 힘든 길이의 유전자 복제수변이가 발굴되었다. 한편, 현재까지 유전체변이체데이터베이스(Database of Genomic Variants, DGV)에 보고된 대부분의 유전자 복제수변이는 1-10kb 정도의 크기를 가지는 것으로 나타났다(Figure 4)[5]. 이러한 차이는 유전체변이체데이터베이스에는 염기서열 분석 데이터뿐만 아니라 칩 기반의 데이터가 상당수 포함되어 있기 때문이다. 또한, 페어드-엔드 라이브러리제작 과정에서 여타 라이브러리와는 달리 라이브러리를 제작할 때 200-500bp의 짧은 유전자 단편을 이용하기 때문에, 본 연구결과와 같이 기존에 알려진 유전자 복제수변이 지역에 비해 작은 크기까지 발굴 할 수 있다. 따라서 차세대 염기서열 분석을 통해 더 큰 크기의 유전자 복제수변이를 확인하기 위해서는 유전자 단편의 크기가 2-5kb인 메이트 페어 라이브러리(mate pair library)를 이용하는 추가적인 염기서열 분석이 필요하다[6]. 한편, 분석의 정확도를 높이기 위한 여러 추가적인 분석이 필요하며 이와 관련하여 유전체센터 형질연구과에서는 주문제작형 어레이 CGH(customized array CGH) 칩으로 유전자 복제수변이의 교차 분석을 이용한 연구를 진행하고 있다. 이들 분석과정을 통해 얻어진 정확도 높은 유전자 복제수변이 결과는 추후 해당변이와 질병연관성 분석연구에 이용할 계획이다.


Ⅲ. 맺는 말

최근 차세대 염기서열 분석이 시작됨에 따라 인간의 질병을 유발할 수 있는 유전변이에 대한 연구가 활발히 이루어지고 있다. 특히 유전자 구조변이 연구 분야에서는 칩 기반의 데이터를 이용하였을 때보다 염기서열 데이터를 이용하면 유전체 상에서 구조변이가 발생되는 양 끝단을 정확하게 알 수 있고 특히 페어드-엔드 라이브러리를 이용하기 때문에 작은 크기의 유전자 구조변이를 발굴하는데도 유용하다. 또한 엑솜 염기서열 분석은 전장유전체 염기서열 분석에 비해 분석시간이 짧고 비용이 상대적으로 적게 들기 때문에 많은 연구자들이 엑솜 염기서열 분석을 선호하고 있다. 한편 엑솜 염기서열 분석은 엑손 부위를 중심으로 분석하기 때문에 앞에 기술한 바와 같이 큰 크기의 유전자 구조변이를 발굴하는데 어려움이 있다. 따라서 이러한 단점을 극복하기 위하여 페어드-엔드 분석보다는 유전자 단편을 크게 나누는 메이트 페어 분석도 병행 되어야 할 것이다. 유전자 구조변이 발굴과 질환연관성 분석 수행을 위해 어레이 칩과 같은 분석 방법으로 교차 분석을 수행하여 유전자 구조변이를 발굴의 정확도를 높여야 하며, 이러한 과정을 통해 발굴된 유전자 구조변이는 다양한 유전질환의 질환연관성 연구를 위한 유용한 도구가 될 수 있을 것이다.


IV. 참고문헌

1. Chen K, Wallis JW, McLellan MD, Larson DE, Kalicki JM, Pohl CS, McGrath SD, Wendl MC, Zhang Q, Locke DP, Shi X, Fulton RS, Ley TJ, Wilson RK, Ding L and Mardis ER., BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Nat Methods. 2009 Sep;6(9):677-81.
2. Medvedev P, Stanciu M and Brudno M., Computational methods for discovering structural variation with next-generation sequencing. Nat Methods. 2009 Nov;6(11 Suppl):S13-20.
3. Alkan C, Coe BP, and Eichler EE., Genome structural variation discovery and genotyping. Nat Rev Genet. 2011 May;12(5):363-76.
4. Robert JL, Catherine SG, Dan RR, Xiaojun J, Yi-Mi W, Xuhong C, Michael JQ, Scott AT, Kenneth JP, and Arul MC., Detection of Somatic Copy Number Alterations in Cancer Using Targeted Exome Capture Sequencing. Neoplasia. 2011 November; 13(11): 1019-1025.
5. Database of Genomic Variants, DGV(http://projects.tcag.ca/ variation/)
6. Illumina, Genomic Sequencing. 2010.



본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.