본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

복제수변이발굴과 질병연관성분석방법
  • 작성일2011-11-04
  • 최종수정일2012-08-24
  • 담당부서감염병감시과
  • 연락처043-719-7173

     

복제수변이발굴과 질병연관성분석방법
Detection of copy number variation and its association analysis with human diseases

질병관리본부 국립보건연구원 유전체센터 형질연구과            
문상훈           
  


Ⅰ. 들어가는 말
  복제수변이(copy number variation)는 유전자의 특정 염기서열이 삽입(insertion), 결실(deletion),  중복(duplication), 전위(inversion) 또는 전좌(translocation)되어 발생되는 유전자 구조변이(structural variation)를 말한다[1]. 유전자 구조변이의 유전자의 범위는 1 킬로베이스(kilobase; kb)부터 수 메가베이스(megabase; mb)의 크기로 작은 유전자 단편에서부터 하나의 염색체까지 다양하며 잘 알려진  유전질환인 다운증후군, 터너증후군 등이 유전자 구조변이에 속한다[1]. 이처럼 복제수변이로인해 유전자의 일부 서열이 변화되어 하나 또는 그 이상의 유전자 전체가 결실 또는 중복된 경우, 유전자를 파괴(disruption)하거나 융합(fusion)시켜 그 유전자의 기능을 잃어버리게 하며 주변 유전자의 조절능력을   변화시켜 특정 질병에 대한 감수성(susceptibility)에 영향을 준다. 2004년 두 편의 논문에서 각 개인별로 복제수 차이가 존재하며 이 중 일부는 부모로부터 유전(inherited)되고, 일부는 산발적(sporadic)으로  발생한다는 사실이 발표되었다[2, 3]. 현재 복제수변이 연구는 인간의 유전자에 분포하고 있는 복제수 차이를 단순하게 발굴하는 것에서 벗어나 유전체 수준(genome-wide)에서 질병군과 대조군사이의 복제수변이 차이를 분석하고 질병과 연관성을 보이는 복제수변이 또는 유전자를 찾아 실험을 통해 그 기능을 증명하기 위한 연구가 활발하게 진행되고 있다. 이 글은 최근 시도되고 있는 복제수변이-복합질환 연관성분석방법 및 연구동향에 대해 기술하고자 한다.


Ⅱ. 몸 말
  1. 복제수변이 발굴방법 
  최근 복제수변이 분석 연구에는 복합결찰의존프로브증폭법(multiplex ligation-dependent probe amplification; MLPA), 형광동소보합법(fluorescence in situ hybridization; FISH), 단일염기다형성어레이(SNP array), 비교유전체보합법(array comparative genomic hybridization; aCGH), 차세대염기서열 분석법(next-generation sequencing; NGS) 등 다양한 방법들이 사용되고 있다. 이 중에 대규모 인구집단 시료를 대상으로 한 유전자 복제수변이 발굴연구에는 aCGH와 SNP array가 많이 사용된다. 특히 최근에는 상대적으로 신호대잡음비(signal to noise ratio)에서 더 좋은 성능을 보이는 aCGH를 사용한 연구가 보다 더 활발하다. Figure 1에서처럼 array CGH는 환자(sample)와 컨트롤 DNA(reference)가 마이크로어레이에 잡종화(hybridization)하는 정도를 형광신호를 이용해 측정한 후 이를 숫자로 정량화하고 그 값들을 로그비(Log ratio)로 변환(log2 sample/reference)하여 컨트롤 DNA에 대한 환자 DNA의 상대적인 차이를 복제수변이로 판정한다[4]. 예를 들면, 컨트롤 DNA에 대한 환자 DNA의 로그비가   양수(+)일때는 증폭(duplication)으로 음수(-)일때는 결실(deletion)로 판정하며, 그 비율이 0에 가까운 값이면 복제수의 차이가 없다고 판정한다(Figure 1).

  2. 복제수변이 유전자형 분석(genotyping)
  전장유전체연관성분석(genome-wide association study; GWAS)을 위해 단일염기다형성(single nucleotide polymorphism; SNP)에 대해 AA, BB, AB 등으로 유전자형을 분류(genotyping)하는 것과 같이, 복제수변이도 연관성분석을 위해서는 발굴된 복제수변이에 대한 유전자형 분석이 필수적이다.   복제수변이에 대한 유전자형 분석은 일반적으로 발굴된 복제수변이 지역 내에 위치한 탐침(probe) 각각의 로그값들의 평균값(segmental mean)을 사용하여 계산한다. 이 값들을 빈도수별로 히스토그램을   그리면 유전자형별로 각각 클러스터링(clustering)되는 것을 볼 수 있다(Figure 2). Figure 2에서와 같이, 가장 많은 빈도수를 보이는 부분이 정상 복제수로 일반적으로 2 copy로 생각할 수 있고 그 왼쪽 부분이   차례로 동형접합성결실(hemizygous deletion; 0 copy), 이형접합성결실(heterozygous deletion; 1 copy)이고 오른쪽 부분이 3 copy, 4 copy 등으로 유전자형을 정의할 수 있다.
                               
                               
  그러나 복제수변이의 유전자형 정의는 전장유전체연관성분석을 위한 단일염기다형성과는 달리 그   분석에서 해결해야할 여러 문제점을 갖고 있다. 첫째로 Figure 3에서처럼 분석된 복제수변이의 길이가 각 개인별, 각 연구별로 다를 수 있으며, 분석한 복제수변이의 길이가 원래 각 개인별로 다른 것인지  아니면 실험 또는 분석상의 오류로 인해 달라진 것인지는 유전자정량증폭분석(qPCR) 등의 실험방법을 이용한 검증 외에는 정확하게 구분 짓기 어렵다. 두 번째로 발굴된 복제수변이 중 약 40% 정도만이  유전자형을 분류할 수 있다[5]. Figure 4에서처럼 (a)와 (b) 모두 복제수변이로 정의할 수 있지만 오직 (b)의 형태만이 유전자형을 구분 지을 수 있고 이러한 형태는 발굴 가능한 전체 복제수변이 수 중 약 40% 정도라고 알려져 있다. 세 번째로 Figure 4의 (b)에 표시된 붉은색 원과 같이 각 유전자형에 따른 클러스터의 경계에 위치하여 유전자형을 명확하게 구분할 수 없는 부분에 대한 처리가 어렵다. 따라서 발굴된 지역에 대해 보다 더 정확한 복제수변이 유전자형을 정의하기위해서는 분석과정에서 발생할   수 있는 오류를 최소화하는 연구자의 개입이 필요하게 된다. 분석과정에서 연구자가 적극 개입하여   오류발생 가능성 줄이면 최종적으로 얻은 결과에 대한 유전자형을 qPCR 등으로 검증하였을 때 높은  정확도를 확인할 수 있지만, 분석시간이 상대적으로 늘어나게 된다.
          
          
  3. 발굴된 복제수변이의 특징 및 연관성분석 경향
  지금까발굴된 공통복제수변이(common CNV)들은 유전체 상에서 유전자지역 보다는 유전자와   유전자 사이지역(intergenic region)에 위치하고 있고 유전자지역내에서도 단백질 합성 정보를 갖고   있는 엑손(exon)보다는 주로 단백질로 합성되지 않는 인트론(intron)에 위치하고 있다[5]. 이와는 달리, 1% 이하의 발생빈도를 보이는 희귀복제수변이(rare CNV)의 경우에는 상당수가 엑손지역에서 발견된다. 실제로 국립보건연구원 유전체센터에서 약 5천명의 코호트시료를 사용하여 발굴한 복제수변이의 분포를 보면 5천명중 200명이 갖고 있는 복제수변이보다 5천명의 1%인 약 50명 정도가 갖고 있는 복제수변이가 유전자상에 더 많이 존재하는 것을 확인할 수 있다 (Figure 5). 이는 공통복제수변이보다는 희귀복제수변이가 유전자발현 등에 더 큰 영향을 미칠 수 있다는 것을 의미한다. 공통복제수변이는   그 기능적 영향이 크지 않았기 때문에 집단내에 비교적 높은 빈도로 존재할 수 있다. 반면 기능에 큰 영향을 미칠 수 있는 복제수변이는 해당 개체의 선택압으로 작용하게 되어 집단내에서 높은 빈도를   유지하기 어렵다. 따라서 희귀복제수변이가 공통복제수 변이에 비해 질병연관성을 가질 가능성이 더  높으며 초기 연구에 비해 공통복제수변이와 질환연관성 연구는 각광받고 있지 못하다.
                              
  4. 복합질환과의 연관성분석
  앞서 설명한 이유들로 인해, 복제수변이-질환연관성 분석연구는 전장유전체연관성 분석방법으로 설명하기 어려운 희귀복제수 변이쪽의 연구가 활성화되고 있다. 결과적으로 단일염기다형성분석방법을 복제수변이 연구에 단순히 확장하여 적용하려던 초기 연구방법에서 진일보하여 복제수변이의 특징을 고려한 연구방법이 자리를 잡아가고 있다. 현재까지 복합질환과 희귀복제수변이의 질병연관성 연구는 주로   정신질환을 중심으로 연구가 진행되어왔다. 그러나 최근에는 비만, 당뇨 등의 복합질환과 희귀복제수  변이와의 연관성분석 결과가 보고되는 등 연구 범위가 확장되고 있는 추세이다[6, 7]. 


Ⅲ. 맺는 말


  복제수변이 연구 초기에는 복제수변이의 복잡성을 고려하지 않고 단순하게 전장유전체연관성 분석  연구를 확장 적용하려는 시도가 많았다. 실제로 전장유전체연관성분석에 사용하였던 단일염기다형성  어레이(SNP array) 데이터를 이용하여 복제수변이를 분석하였을 때 분석된 유전자형과 실험으로 검증한 유전자형과 차이가 많았으며, 전장유전체연관성분석과는 달리 유의한 변이를 거의 찾을 수 없었다. 이러한 이유로 초기의 기대와는 달리 복제수변이 연구가 활성화되지 않고 있다. 그러나 복합질환과   연관된 희귀변이 발굴에 관한 연구 등 복제수변이 그 자체의 특징을 고려한 연구가 활성화되고 있고 aCGH, 차세대염기서열분석법 등 보다 더 정확하게 유전자형을 정의할 수 있는 기술이 빠르게 발전함에 따라 향후 현재의 기술로 규명해내기 어려운 질병연관성 복제수변이가 발굴될 것으로 기대한다.


Ⅳ. 참고문헌

1. Lee, C., Scherer, S.W. (2010) The clinical context of copynumber variation in the human genome. expert reviews in molecular medicine 12, e8
2. Iafrate, A.J., et al. (2004) Detection of large-scale variation in the human genome. Nature Genetics 36, 949-951.
3. Sebat, J., et al., (2004) Large-scale copy number polymorphism in the human genome. Science 305, 525-528.
4. Theisen, A. (2008) Microarray-based comparative genomic hybridization (aCGH). Nature Education 1(1).
5. Conrad, D.F., et al., (2010) Origins and functional impact of copy number variation in the human genome. Nature 464, 704-712.
6. Heather, C.M., et al., (2010) Genome-wide copy number variation in Eplepsy: Novel susceptibility loci in Idiopathic generalized and focal epilepsies. PLoS Genetics 6, e1000962.
7. Bochukova, E.G., et al., (2010) Large, rare chromosomal deletions associated with severe early-onset obesity. Nature 463, 666-670.

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP