본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

유전자간 상호작용 기반의 질병지표 발굴연구
  • 작성일2010-01-15
  • 최종수정일2012-08-25
  • 담당부서감염병감시과
  • 연락처043-719-7173

 

 유전자간 상호작용 기반의 질병지표 발굴연구
Identification of disease markers based on gene-gene interactions


질병관리본부 국립보건연구원 유전체센터 바이오과학정보과      
      


Ⅰ. 들어가는 말
  21세기 질병연구는 만인에게 일률적으로 적용되는 의료가 아닌 각 환자의 유형에 맞는 적절한 치료가 실시되는 ‘맞춤의학’을 실현시키기 위해 노력하고 있다. 동일한 질병을 가진 환자들 간에도 유전적인  배경이나 환경적인 배경의 상호작용인 질병발생의 원인이 다를 수 있으며, 그러한 요인들을 적절하게 반영하는 질병지표(마커)를 발굴하는 것이 맞춤의학을 구현하기 위해서 꼭 필요하다. 실제로는 아직   환자가 아닌 건강한 사람을 대상으로 장래에 어떤 특정 질병이 나타날 가능성이 높은지를 미리 알아낼 수 있는 요인도 예방적 관점에서 넒은 의미의 중요한 질병지표라고 할 수 있다. 아주 특별한 소수의  유전자가 질병의 원인이 되는 유전병의 경우를 제외한 우리가 아는 대부분의 질병은 다양한 환경적,  유전적인 요인이 복잡하게 상호작용하여 질병의 발생과 진행에 관련되며, 따라서 질병의 발생을 미리 예측할 수 있는 지표를 찾아낸다는 것은 현실적으로 아주 어려운 문제이다.
  많은 환자를 상대하는 병원에서는 특정 질병의 발생과 진행, 예후 등에 관련된 지표를 찾아내는 연구를 주로 하는 반면, 질병관리본부 유전체센터에서는 주로 지역별로 구분된 인구집단에서 수집된 데이터를 연구하기 때문에 정상인에서 특정 질병을 가진 환자로 바뀌는 과정에 초점을 맞춰서 복합질환(당뇨병이나 천식 등의 일반적인 만성질병)의 발병에 관련된 지표발굴연구를 수행하고 있다. 2007년을 전후로 전  세계의 주요 연구진들은 인간 유전체(genome) 전체의 유전정보를 탐색하여 정상인 집단과 환자 집단 사이에서 유의한 차이가 나는 유전요인을 찾아내는 유전체 전장 연관성 분석(Genome-Wide Association Study ; 이하 GWAS)을 통해 눈부신 성과를 내기 시작하였으며, 질병에 대한 다양한 질병지표 가운데 주로 단일염기다형성1): 유전체의 한 염기서열이 집단 내에서 일정한 비율로 다양성을 나타내는 것을 말함(Single Nucleotide Polymorphism ; 이하 SNP) 변이정보 발굴이 이루어졌다. 대개 수천 명 규모였던 GWAS는 최근에는 1만 5천 명 규모의 제2세대 GWAS 수준으로까지 확대되어 더욱 정밀한 수준의 질병지표 발굴이 이루어지고 있다[1].
  GWAS는 유전체 전체를 본다는 의미에서 “Genome-Wide”라는 표현을 사용하고는 있지만 실제로 한명의 인간에 존재하는 30억 염기쌍 유전체 모두를 분석하는 것은 아니고 50만-100만개 정도의 염기를 조사하는 수준이며, 지금까지 유전체의 일부만을 연구할 수 밖에 없던 과학자들이 처음으로 유전체   전체에 걸쳐서 연구할 수 있게 되었다는 점에서 큰 의의를 가진다. 따라서 과학자들은 GWAS를 통해서 많은 질병지표들이 밝혀지고 또 그것이 질병의 조기진단이나 치료약 개발을 위한 새로운 지식의 발견으로 이어지기를 기대했으며 실제 그러한 성과들이 얻어졌다고 볼 수 있다.
  GWAS는 질병에 관련된 지표만이 아니라 부모에서 자식으로 이어지는 다양한 유전형질에 관련된   지표를 발굴하는 목적으로도 사용되며 그 대표적인 예로 ‘키’를 들 수 있다. 키는 어린 시절의 영양 상태 등 환경적인 요인으로도 결정되지만, 키가 큰 부모에게서 키가 큰 아이들이 많은 것으로도 알 수 있듯이 유전적인 요인도 상당 부분 작용하는 것으로 알려져 있다. 실제 과학자들은 GWAS를 통해서 키와 관련된 유전적인 요인인 SNP 지표를 40개 정도나 찾아냈다. 하지만 여기에서 예상보다 심각한 문제가 나오기 시작했는데 그것은 많은 수의 지표가 발견되었는데도 불구하고 실제 설명할 수 있는 부분은 너무 적다는 점이 다양한 지표에서 밝혀지기 시작했다는 것이다. 실제로 키에 관련된 40개의 지표는 겨우 5% 정도의 설명력만 가진다는 사실이 밝혀졌다[2]. Manolio et al. (2009)에서는 키와 제2형 당뇨병, HDL 콜레스테롤 등에 관련된 지표들이 충분한 설명력을 가지지 못한다는 내용을 소개했다(Table 1). GWAS를   통해 계속해서 새로운 유전적 지표들이 발굴되면서 이러한 한계도 드러나기 시작했고 그 원인과 대책에 대해 ‘사라진 유전율(missing heritability)’이란 용어도 등장하면서 많은 논의가 이루어지고 있다[2-4].
 
  기본적으로 GWAS는 CD-CV(Common Disease-Common Variant) 가설을 전제로 이루어지는데,  진화적 측면에서 인류 집단에 광범위하게 퍼져있는 질병(Common Disease)의 원인은 마찬가지로 인류 집단의 유전정보 전체에서 광범위하게 발견되는 변이정보(Common Variant)일 것이라는 가설이다. 이 가설에 따라 어느 정도의 인구집단에서 어느 수준 이상 존재하는 SNP 중에서 질병지표를 찾아내는   방법이 GWAS인 셈이다. 따라서 GWAS로 예상만큼의 질병지표를 찾아내지 못한다는 것은 광범위하게 발견되지 않는 아주 드문 변이정보(Rare Variant)가 원인일 가능성이 있고, 또는 SNP 외의 CNV(Copy Number Variation) 같은 다른 종류의 유전변이 정보가 원인인 경우, 또는 하나로 보이는 어떤 질병이 사실은 몇 가지 서로 다른 기전에 의한 질병 종류로 나뉘는 것을 우리가 아직 모르고 무조건 하나의  환자집단으로 취급하여 연구하기 때문에 오는 한계점 등이 있을 것으로 생각된다.
  지금까지 언급한 GWAS의 한계를 가져오는 요인들 외에 또 하나 생물학적으로 중요한 원인은 유전자간의 상호작용이다. 일반적으로 질병의 원인이 다양한 환경적인 요인과 유전적인 요인들의 상호작용에서 오는 것으로 여겨지지만, GWAS의 경우는 유전적인 요인에 초점이 맞춰져 있고, 또한 유전적인 요인인 각각의 SNP가 가지는 영향력을 통계분석을 통해 확인하기 때문에 실제 생체 내에서 일어나는 복잡한 유전자 상호작용을 반영하지 못한다는 문제점이 있다. 즉, 생물학적으로는 1+1=2가 아닌 1+1=10과 같은 현상도 일어날 수 있기 때문에 각각의 SNP만으로는 환자 집단과 정상인 집단 사이에서 유의한 분포차이를 보이지 못하지만, 그러한 몇 가지 SNP들이 조합을 이루었을 경우에는 예상하지 못한 커다란 생물학적 영향성을 가지게 되어 질병의 발병 기전에 관여할 가능성이 있다. 따라서 질병관리본부 유전체센터에서는 질병지표 발굴의 일반적인 방법인 GWAS를 수행함과 동시에 이러한 유전자-유전자 상호작용을 고려한 새로운 분석방법을 시도하고 있다. 본문에서는 그러한 방법의 하나로 기계학습알고리즘(machine learning algorithm)을 적용한 기법을 개발한 연구에 대하여 소개하고자 한다.


                                 
  1) 단일염기다형성 : 유전체의 한 염기서열이 집단 내에서 일정한 비율로 다양성을 나타내는 것을 말함
                                       

Ⅱ. 몸 말

  본 연구에서는 유전자 상호작용을 고려한 질병지표를 발굴하기 위하여 기계학습알고리즘을 사용하였는데, 기계학습 알고리즘이란 주어진 데이터를 컴퓨터에 입력하고 어떠한 특정 알고리즘을 기반으로 학습을 수행하여 판별기준을 구축함으로써 새로운 데이터가 주어졌을 때 그 데이터가 어떠한 종류로 판별되는지를 예측하게 되는 과정을 가리킨다. 본 연구에서는 다양한 종류의 알고리즘 중에서 상대적으로 최근 등장하여 다양한 문제에 대한 우수한 해결능력을 보여주는 SVM(Support Vector Machine)이라는 기계학습알고리즘을 중심으로 연구를 진행하였다.
  Figure 1은 SVM의 기본원리를 소개하고 있다. 왼쪽은 일반적인 판별분석방법으로 흰색 원과 검은색 원의 데이터가 학습용으로 주어졌을 경우, 두 집단에서 각각의 데이터 간 거리를 측정하여 두 개의   중심을 구한 후에 그 가운데에서 최적의 초평면(optimal hyper plane)을 구함으로써 흰색과 검은색   집단을 나누는 방법을 학습한다. 하지만, 오른쪽의 SVM에서는 각 집단의 중심이 아닌 두 집단 사이의 경계에 있는 데이터에 초점을 맞추는 것이 왼쪽과 다르다. 흰색과 검은색 두 집단의 경계에 먼저 H1과 H2의 2개의 선을 그어 파이프를 구한 후에 양쪽 파이프 가운데에 새로운 선을 그어 최적의 초평면으로 정한다. 여기에서 보통 H1, H2를 구하는 방식은 무한히 존재할 수 있지만 H1, H2 두 선분 사이에 데이터가 존재하지 않는다는 점과 두 선분 사이의 거리인 margin이 최대가 된다는 제약조건을 둠으로써 SVM의 초평면이 하나로 정해지도록 한다는 점이 특징이다. 이렇게 되면 그림에서 새롭게 등장한 new data라는 하얀색 데이터는 왼쪽의 일반적인 선형판별에서는 검정색으로 잘못 분류되지만 SVM에서는 흰색으로 올바르게 예측된다는 것을 알 수 있다. 하지만 실제로는 H1, H2 사이에 학습용 데이터가   존재하지 않는 경우가 거의 없으며, 따라서 어느 정도의 학습용 데이터가 H1, H2 선분 사이에 또는  상대편 영역에 존재하더라도 최대 margin을 가진 초평면을 가지도록 허용하는 slack variable을 수식에 추가하는 soft margin이라는 기법을 추가로 적용한다(Figure 2). 참고로 SVM의 이름에 들어가는 Support Vector라는 것은 그림에서 H1, H2를 정하는데 기여하는, 즉 두 개의 선분에 접한 학습용   데이터를 가리킨다. 그림에서는 하얀색 데이터 두 개와 검은색 데이터 두 개가 Support Vector로 사용되었음을 알 수 있다.
                                       
                                       
  이렇게 두 가지 종류의 데이터를 적절하게 나누는 판별방식을 컴퓨터로 학습하여 새로운 데이터에  대한 예측을 수행할 수 있는 SVM은 soft margin을 적용하더라도 실제 우리 주위에 존재하는 비선형분류라는 현실적인 문제들에서는 효과적인 성능을 낼 수 없다는 한계가 존재했다. 하지만 SVM에서 커널(Kernel) 함수라는 것을 사용한 mapping 방식을 적용할 수 있게 되면서 마침내 SVM이 비선형문제들에 대해서도 효력을 발휘하기 시작하였고 생명정보학(bioinformatics)을 포함한 다양한 분야에서 적극적으로 사용되게 되었다. 커널을 사용한 mapping이라는 것은 우리가 실제로 데이터를 배치하는 입력공간(input space)에서는 잘 나누기 힘든 비선형문제를 feature space라는 고차원의 공간으로 이동시켜서 이 새로운 공간에서 SVM의 선형판별을 수행함으로써 마치 처음의 입력공간에서 매우 복잡한 비선형 판별 문제를 해결한 것과 같은 효과를 얻는 것을 가리킨다.
  주로 사용되는 커널은 linear kernel, polynomial kernel, RBF(Radial Basis Function) kernel을 들 수 있으며, 각각의 커널에서는 최적화를 도와주는 변수들이 따로 존재한다. 일반적으로 각 문제에 대해서 어떤 커널의 어떤 변수를 선택하는 것이 가장 좋은지를 자동적으로 알려주는 방법은 없으며, 모든 조건을 바꾸면서 SVM의 학습과 예측을 반복해서 최적의 예측률을 보여주는 조건을 찾아야 한다.
  본 연구에서는 제2형 당뇨병(T2D) 환자 1,042명과 정상인 2,943명에 대해서 한 사람당 약 36만 개의 genome-wide SNP 데이터를 사용하여 SVM 기반의 컴퓨터 학습을 수행함으로써 T2D 환자와 정상인 집단을 가장 잘 나누는 초평면을 찾아내도록 했다. 일종의 SNP 유전정보 기반의 질병예측을 수행한다고 볼 수도 있지만, T2D의 경우 가족력이나 식습관 등의 환경적인 요인들이 강하게 작용하기 때문에 SNP 만에 의존한 ‘질병예측’이라는 표현은 현실적이지 못하다. 따라서 본 연���에서는 좋은 예측률을  보이는 조건의 SVM에서는 36만 개 전체가 아닌 어떠한 SNP의 부분집합들이 사용되고 있는지를 확인함으로써 우리가 원하던 일종의 유전자-유전자 상호작용에 대한 단서를 얻고자 하는 것이 주된 목적이다. 서로 다른 유전자에 분포하는 SNP들이 모여서 우수한 판별능력을 보여준다면 조합에 포함되는 유전자들은 서로 간에 우리가 아직 모르는 상호작용을 가지고 있을 가능성이 있다고 가정하는 것이다. 
  36만 개에 이르는 방대한 수의 SNP로부터 어떻게 최적의 판별능력을 보이는 SNP 조합을 찾아내는가가 가장 중요한 문제인데, 본 연구에서는 학습과 예측을 반복하는 과정에서 feature selection을 수행함으로써 최적의 SNP 조합을 탐색하는 방식을 선택했다. feature selection에서는 forward selection, backward selection, step-wise selection 등의 기법이 알려져 있는데 어느 것도 100% 완벽한 최적조합 탐색을 보증하지는 못하며, 특히 forward와 backward를 반복하는 step-wise selection의 경우에는 방대한 양의 계산을 요구하기 때문에 현재의 컴퓨터 성능으로는 현실적으로 불가능하다. 따라서 본 연구에서는 상대적으로 적은 계산량으로 최적값에 접근할 수 있는 forward selection을 수행하였다. forward selection에서는 36만 개 SNP를 한꺼번에 컴퓨터에 입력하지 않고 단계적으로 그 수를 늘려가면서 학습과 예측을 반복한다. 처음에는 36만 개의 SNP를 하나씩 입력하면서 SVM이 T2D 환자와 정상인을 얼마나 잘 나눌 수 있는지 확인하는데 T2D 환자를 T2D 환자로, 정상인을 정상인으로 올바르게 예측하는 능력을 종합적으로 판단하여 가장 좋은 SNP 한 개만을 고른다. 두 번째 단계에서는 처음에 선택된 한 개의 SNP에 대해서 나머지 SNP들을 하나씩 덧붙인 SNP 쌍(pair) 모두에 대해서 각각의  예측률을 비교해서 가장 좋은 예측률을 보인 SNP 쌍을 골라서 두 번째 SNP를 선택한다. 마찬가지   방식으로 가장 좋은 예측률을 보이는 세 번째, 네 번째 SNP들을 선택해 나감으로써 점점 더 좋은 예측률을 보이는 하나씩 길어지는 SNP 조합을 얻는다. 이러한 과정에서 마지막에 추가되는 SNP로 예측률이 더 이상 향상되지 못할 경우에 이 작업은 중단되며, 그때까지 모아진 SNP의 조합이 최고의 예측률을 보이는 최적의 SNP 조합으로 남게 된다.
  현재까지 파악된 바로는 거의 최초로 시도된 genome-wide SNP 데이터에 대한 SVM 분석기법 적용은 계산량 문제가 커다란 문제로 부각되었으며, 36만 개 SNP 데이터에 대해서는 SVM 프로그램 자체가 구동되지 않는 문제 등이 발생하여 어떠한 기준을 따라 수백 개 정도의 SNP로 1차적인 선택과정을 거칠 필요가 생겼다. 본 연구에서는 먼저 SNP의 수가 예측률에 끼치는 영향을 파악하기로 했다. 각 SNP의 카이검정(χ2 test)의 p-value 수치를 기준으로 선택하는 방식과 무작위로 선택하는 방식 등을 적용해 보았고, 그 결과 낮은 수치의 p-value를 보인 SNP들을 우선적으로 선택하는 방식이 가장 좋은 것으로 나타났다(Figure 3). 여기서의 예측률은 전체 정확도(overall accuracy)를 가리키며 전체 표본 중에서 환자와 정상인 모두가 올바르게 예측된 비율을 가리킨다.
  
  Figure 3에서 왼쪽은 p-value가 가장 낮은 SNP부터 순서대로 3,800개(p-value ≤ 0.05)까지 늘리면서 SVM의 학습과 예측을 수행한 결과이며, 오른쪽은 반대로 p-value가 가장 높은 SNP부터 계산한 결과이다. 전반적으로 왼쪽이 예측률이 높으며, 참고로 18개 이하의 SNP에서는 특이도(specificity)가 과도하게 높았기 때문에 이 그래프의 전체적인 정확도(overall accuracy)는 의미가 없다. 3,800개까지는 SNP의 수와 비례해서 SVM의 예측률이 향상되는 것을 확인하였다. 이 그림에서는 self-consistency test와 cross-validation test(independent data set) 결과도 비교되었다. 학습과 예측을 같은 데이터 세트로 수행하는 self-consistency test에서는 예상대로 과도한 학습에 의한 overfitting이 일어나서 너무 높은 예측률을 보였고, 범용성이 없기 때문에 대개 데이터 세트가 바뀌면 재연되지 않는다. 기계학습  알고리즘 연구에서 overfitting 문제는 매우 중요하며, 그것을 회피하기 위하여 보통은 주어진 데이터 세트를 여러 개로 나누어 학습과 예측에 사용하는 하위 데이터 세트(sub-data set)가 겹쳐지지 않게 한다.  
  본 연구의 데이터 세트는 특히 표본 수에 비해서 SNP의 수가 매우 방대하기 때문에 overfitting이  일어나기 쉬운데, 그림의 independent 1, 2와 3의 경우에서도 SNP이 3,800개가 되면 70%나 80%   이상의 예측률이 나왔다. genome-wide SNP 데이터를 사용했지만 환경적인 요인이 없는 상태라는 점을 감안한다면 너무 높은 예측률이며, cross-validation test를 수행했어도 완벽하게 overfitting을 회피하지 못하는 것으로 여겨진다. 위 결과는 SVM의 linear kernel 조건에서 수행되었는데, 추가로 다양한 SVM의 커널과 또 각 커널에서 필요한 변수를 변경하면서 마찬가지로 낮은 p-value의 500개 SNP에서 예측률을 구한 것이 Table 2이다. 500개 SNP에 대해서 환자와 정상인 집단의 전체 데이터 세트를 둘로 나누어서 절반은 SVM 학습을 수행하고, 학습에 사용하지 않은 나머지 절반에 대해서 예측을 수행하여 그 정확도를 확인한 결과이다. 민감도(sensitivity)와 특이도(specificity)가 균형이 잡히면서 전체적인 정확도(overall accuracy)가 비교적 높게 나온 것으로는 polynomial 커널에서 d=3의 변수를 사용한 경우를 들 수 있다.
  
  본 연구에서는 유전체 전체에 분포한 50만 개 SNP에 대하여 T2D 환자와 정상인 사이를 구별하는 판별분석을 수행하였으며, 너무 방대한 계산량, overfitting 문제 등을 회피하기 위하여 SNP 데이터   양을 줄여야 한다는 점, 그리고 그 방법의 하나로 각 SNP의 p-value를 계산한 후에 그 값을 근거로 낮은 값부터 선택하여 수백 개 단위로 좁히는 전략이 필요하다는 점을 제시하였다.


Ⅲ. 맺는 말


  지속적으로 진행되고 있는 본 연구는 500개 정도로 좁혀진 SNP로부터 상대적으로 영향력이 큰 SNP의 조합을 선택함으로써 최종적인 질병지표 탐색을 완수하게 된다. 다음 단계로 이행되면서 몇 가지의 특정 유전자 또는 유전자 외 부위에 위치한 SNP의 조합이 찾아지면 overfitting 문제를 제대로 회피하여 재연성이 있는 결과로 나왔는지 평가하는 과정, 특정 SNP 조합이 기존에 알려진 생물학적인 지식들과 비교, 검토되어 어떠한 새로운 가설과 기전을 해명하는 것이 가능한지 등이 생명정보학을 통해 종합적으로  분석된다. 이상적으로는 컴퓨터를 사용한 이론적인 연구가 실험적으로 검증 가능한 몇 가지 흥미로운 가설을 세우고 따라서 추가로 실험적인 검증연구가 이어지는 경우가 바람직하며, 방대한 양의 데이터 분석에서 그 중요성이 다시 부각되는 생명정보학과 기존의 실험생물학이 서로 보완되는 연구흐름을 구축할 필요가 있다.

Ⅳ. 참고문헌

 1. Harold et al. (2009) Nature Genetics 41, p1088-p1095
 2. Manolio et al. (2009) Nature 461, p747-p753
 3. Maher (2008) Nature 456, p18-p21
 4. Goldstein (2009) N. Engl. J. Med. 360, p1696-p1698

 
 

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP