contents area
주간건강과질병
detail content area
- 작성일2012-03-23
- 최종수정일2012-08-24
- 담당부서감염병감시과
- 연락처043-719-7173
생물정보학적 분석방법을 통한 HIV 유전자 진화 및 계통 연구
Molecular phylogenetic study of HIV using bioinformatic analysis
질병관리본부 국립보건연구원 면역병리센터 에이즈·종양바이러스과
윤미란, 김갑정
Ⅰ. 들어가는 말
생명체의 진화 개념을 이해하는 것은 자연계에 존재하는 무수한 생물들의 다양성을 과학적으로 증명할 수 있는 중요한 과정으로 여겨지고 있다. 특히, 인간면역결핍 바이러스(Human Immunodeficiency Virus; HIV)를 비롯한 감염성 병원체들의 진화연구는 그들이 지니는 고유한 유전적 정보를 바탕으로 병원체의 근원을 규명하고, 바이러스와 숙주간의 상호작용들을 확인하여 병원체의 전파와 감염 특성을 규명하는 데 중요한 정보를 제공하고 있다[1].
에이즈를 유발하는 원인병원체인 HIV는 복제과정에서 역전사효소에 의한 오류와 RNA 중합효소에 의해서 DNA로부터 단백질로 변화되는 과정의 오류 등으로 인해 나타나는 높은 돌연변이율과 숙주의 면역체계를 회피하면서 나타나는 자연선택 등이 바이러스의 진화를 진행시키는 주된 요인으로 작용하는 것으로 알려지고 있다.
이와 같이 HIV의 복잡한 진화 과정의 이해를 위해 다양한 계통분류학적 분석도구와 계산방법을 사용하여 하나의 개체가 어떻게 다른 개체와 유전적으로 관련 있는지를 규명하게 된다. 즉, 현재 유행하고 있는 바이러스들의 조상 바이러스 염기서열이 분기한 시기를 추정하고, 국가나 지역이 다른 집단 사이에서의 전파특성을 규명할 수 있다. 또한 HIV에 감염된 한 개체에서 다른 개체로의 이동에 관한 네트워크를 만들 수 있으며, 다양한 선택압 1)을 받는 환경에서 유전자의 변화를 식별해 낼 수 있다.
이 글은 HIV의 진화 연구를 활용하여 시도되고 있는 여러 연구 분야에서 사용하고 있는 다양한 생물정보학적 분석도구들을 소개하고자 한다.
Ⅱ. 몸 말
1. 계통수를 이용한 유연관계 분석
계통분류는 유전자 서열정보를 이용하여 생물개체 간의 유연관계를 밝히는 분야로 다양한 생물정보학적인 알고리즘을 이용하여 계통수를 생성하고 이들의 관계를 규명한다.
계통수(phylogenetic tree)는 진화연구의 중심을 차지하는 중요한 분석도구로 각 개체 및 그룹들의 염기서열을 정렬하고 모든 자리에서 각 서열들 간의 유전자를 비교하여 계산된 유전적 거리를 바탕으로 개체의 분화와 분기를 줄기와 가지의 관계로 나타내어 각 개체간의 유연관계를 보여준다. 즉, 한 가지에 있는 생물일수록, 그리고 가까이에 있는 가지의 생물일수록 진화적인 유연관계가 가깝다고 할 수 있다. 계통수는 공통조상이 잘 드러나는 rooted 계통수(Figure 1, A)와 공통조상이 뚜렷하지 않고 시간상 순서가 애매한 unrooted 계통수로 나눌 수(Figure 1, B) 있다.
계통수의 생성에 사용되는 데이터는 단백질 또는 뉴클레오타이드 서열로서 분석을 위해서는 가장 먼저 서열정렬을 수행한다. 유사한 서열들이 여러 개 있을 때, 정렬하는 방법으로는 쌍정렬(Pairwise Alignment), 다중서열정렬(Multiple Sequence Alignment; MSA), 국부정렬(Local Alignment), 포괄정렬(Global Alignment) 방법 등이 있으며 현재 주로 사용되는 방법은 다중서열정렬법이며, Clustal W(/X)가 가장 널리 사용되는 프로그램이다.
이와 같이 정렬된 서열들로 계통수를 생성하기 위해서는 생물종 간의 유사성이 측정되어야 하며 일반적으로 생물 종간의 유사성 측정에 이용되는 유전적 거리는 개체의 돌연변이와 관계된다. 즉, 돌연변이가 많이 일어날수록 두 생물종의 유전형질은 달라질 것이고, 이는 유전적 거리가 멀어진다는 것을 의미하게 된다.
정렬된 서열들을 사용하여 계통수를 예측하기 위한 방법으로는 유전적 거리 값 사이의 기능적 관계성에 근거한 알고리즘을 이용한 거리기반 방법(Distance-based Method)과 많은 정보를 가진 이산집단의 데이터를 기반으로 서열정렬에서 각 유전자 위치에 대해 각각의 계통수를 만들어내고, 주어진 서열 내의 특정요소에 대한 진화를 추적하는 특성기반 예측방법(Character-based method)이 있다. 거리기반 방법은 계산은 매우 빠르지만, 염기서열 간의 차이를 거리로만 환산함으로써 염기서열 자체의 정보가 사라지는 단점이 있으며 대표적인 방법으로 Neighbor-Joining(NJ) method가 있다. 특성기반 예측법으로는 Maximum Parsimony(MP), Maximum Likelihood(ML) 등이 있고 최근에는 베이지안 통계법을 이용한 Bayesian Markov chain Monte Carlo method 등을 활용하여 계통분류학 분야에 많은 성과들이 보고되었다[2, 3]. 그러나 특성을 기반으로 하는 이들 방법들은 진화적 역사를 가장 잘 예측하는 방법이지만, 매우 긴 계산 시간을 필요로 하는 단점이 있다. 위와 같은 다양한 분석 알고리즘을 이용하여 개발된 대표적인 계통수 분석 프로그램은 Table 1에 제시하였다(Table 1).
2. 분자시계 모델을 이용한 HIV 근원 추정
분자시계란 시간이 지나면서 생물 종의 특정 유전자에서 나타나는 돌연변이의 발생횟수를 파악하여 생물 종의 분리연대를 추정하는 진화연구에 사용되는 하나의 방법이다. 즉, DNA나 단백질의 서열에 존재하는 유전자 차이에 시간의 개념을 부여하여 서로 다른 생물 간의 유연관계나 개체가 분기한 정확한 연대를 추정하기 위해 사용되는 도구이다.
HIV 진화연구 분야에서 사용되는 분자시계는 HIV가 언제, 어디서, 어떻게 인간에게로 감염되어 전파되는지 자세한 질병의 역사를 계통학적으로 파악하는데 큰 도움을 주고 있다.
HIV 진화와 관련된 역사적 사건의 시기를 추정하기 위해서는 계통수에서 유전적 거리를 시간 단위로 전환하게 되는데 이 분야의 초기 연구에서는 계통수의 모든 계통이 같은 속도로 진화한다고 가정했었지만, 이는 실제 생물학 분야의 현실에 맞지 않기 때문에 최근에 같은 속도로 진화한다는 가정을 완화한, 완화 분자시계 모델(relaxed molecular clock)의 개념을 도입하여 역사적 사건들의 시기 추정에 대한 정확성이 향상되었다. 이러한 개념을 적용하여 HIV 유전자 서열들 중 가장 오래된 서열로 알려진 1959년과 1960년 서열을 사용하여 HIV-1 M 그룹이 인간에게로 감염된 시기를 1930년대로 추정하였으며 [4], HIV-1의 최초 기원을 1908년 정도로 추정한 결과가 보고되었다 [2](Figure 2).
3. 계통지리학적 연구를 통한 HIV 전파양상 감시
HIV 진화는 바이러스 개체의 진화 뿐만 아니라 특정 지역에서 진행되고 있는 바이러스 집단의 역사적 변화를 반영한다. 그러므로 집단을 대상으로 한 HIV 진화연구는 HIV 전파에 대응하기 위한 적절한 예방 전략을 마련하는데 중요한 과학적 근거를 제공한다는 측면에서 중요하다고 할 수 있다.
어떤 인구 집단에서 전파되고 있는 HIV의 역사적 변화를 규명하기 위해서 사용되는 대표적인 개념은 합체이론(coalescent theory)으로서 현재 유행하고 있는 HIV가 어느 곳에서 전파되어 왔는지를 추적하기 위한 분석에 사용된다. 즉, 이 개념은 수집한 유전자 표본들의 진화역사를 거슬러 올라가보면 결국에는 하나의 조상으로 합체가 된다는 이론으로서 현재 유행하고 있는 HIV의 유전자 분석을 통해 이 바이러스가 어느 지역에서 유래되었으며, 어느 방향으로 전파되었는지 추정할 수 있다는 개념이다.
이와 같은 계통분석 기술을 이용하여 많은 연구결과들이 보고되고 있는 상황으로, 일부 연구팀은 1980년대 초 영국에서 동성애를 통해 HIV-1에 감염된 남성 감염인들에서 분리된 바이러스 유전자를 분석하여 그 당시 유행하고 있던 HIV가 6개의 독립적인 HIV에서 유래되었음을 밝혀내고, 이들 서열이 1990년대 중반까지 영국 사회에서 빠르게 전파됨을 보고하였다[5]. 또한 일부 연구에서는 HIV 감염에 대한 역학정보가 부족한 지역에서 바이러스 유전자의 정보만을 통해 바이러스의 전파 근원지를 규명하기도 하였다. 즉, 발칸지역의 불가리아에서 유행하고 있는 HIV 유전자 정보를 분석하여 이 지역에서 유행하는 주된 바이러스 중 HIV-1 아형 A는 적어도 3개의 종류가, HIV-1 아형 B는 4개의 다른 종류들이 외부에서 유입되어 전파되고 있음을 밝혔으며, 이들 바이러스들 주변의 다른 유럽 국가로 전파되고 있다는 연구결과를 제시하였다[6]. 즉, HIV 유전자 정보에 대한 계통지리학(Phylogeography)적 접근을 통하여 HIV 전파양상을 규명하고, 이에 대한 감시결과를 바탕으로 바이러스 전파에 대한 대응전략을 수립할 수 있는 과학적 근거를 마련할 수 있는 좋은 예를 보여준다.
4. 계통분류학을 이용한 감염개체간의 상호관계 규명
계통분류학적 분석법들은 HIV에 감염된 사람들 사이의 전파 네트워크를 식별하여 감염 원인에 대한 정보를 파악하는데 도움을 줄 수 있다. 이러한 연구는 HIV 전파와 관련된 사람들의 연관관계를 추적하고, 파악하여 감염에 대한 공통된 특징을 규명하기 위한 중요한 정보를 제공한다.
이러한 연구방법은 HIV 감염이 관련된 범죄 사건에서 감염인들간의 전파 네트워크를 작성하여 사건을 해결할 수 있는 중요한 실마리를 제공하기도 한다. 실제로 리비아에서 의료인이 고의로 수 백명의 리비아 아이들에게 HIV를 감염시켰다는 혐의로 사형을 선고받은 사건에서, HIV에 감염된 아이들의 바이러스 유전자 염기서열을 계통학적으로 분석하여 공통 조상의 감염시기와 연관성을 추정한 결과, 의료진이 도착하기 이전에 이미 감염이 발생하여 전파되고 있었다는 결론을 내릴 수가 있었다[7].
또한 특정 지역에서 유행하고 있는 항레트로바이러스제 내성 유전자 분석을 통해 감염인들 간의 약제내성 바이러스의 전파 네트워크를 파악하여 이에 대한 대책이 필요성을 제안하기도 한다.
5. 숙주와의 연관성 규명
하나의 숙주로 전이된 HIV는 독특한 특성을 가지며 이는 백신연구와 초기 약제치료에 유용한 정보를 제공한다. 생물정보학적 진화 연구를 통해 HIV가 숙주의 면역세포 외에 서로 다른 많은 세포에 감염되는 구획화 연구는 백신 설계와 약제치료에 도움이 될 수 있다. 예를 들면, 2005년 Salemi 연구팀은 계통지리적 연구를 통하여 한 HIV 연관 치매로 사망한 환자의 뇌를 통해 HIV의 이동 경로를 연구하였다[8]. HIV가 뇌척수막을 통해 뇌로 들어와서 측두엽을 비롯한 뇌의 다른 부분으로 퍼지는 것을 발견하였으며, 측두엽 내 바이러스는 뇌의 다른 어떤 곳보다 더욱 빨리 변화되는데 이는 치매의 원인에 대한 단서가 될 수 있다는 의견을 제시하였다.
Ⅲ. 맺는 말
HIV 유전자의 진화 및 계통 연구는 높은 돌연변이율과 숙주와의 상호작용으로 매우 복잡한 진화과정을 가지는데, 이런 복잡한 진화과정을 이해하기 위해 생물정보학적인 분석방법들이 여러 분야에서 사용되고 있다. 거리 및 특성 기반의 기법들과 분자시계모델을 적용하여 계통수를 생성하고 개체 간의 유연관계 및 개체의 분기시기를 추정하는 연구와 집단을 대상으로 하여 계통지리학적으로 현재 유행하고 있는 HIV의 유래 지역 및 전파 방향을 추정하는 연구가 지속적으로 이뤄지고 있다. 또한 감염인들 사이의 전파 네트워크를 식별하여 감염 원인의 파악과 공통된 특징을 규명하는 연구나, HIV와 숙주 사이의 상호작용을 규명하는 연구 등도 다양한 기법을 적용하여 접근되고 있다.
위에서 설명한 분야 외에도 CXCR4 / CCR5 중 HIV의 감염 경로를 예측하는 방법을 이용하여 현재의 HIV 약제내성을 예측할 뿐만 아니라 미래에 발생 가능한 잠재적 약제내성을 예측하고자 하는 시도도 이뤄지고 있다. 또한 서열 데이터를 바탕으로 환자에게 적합한 약제치료법을 예측하는 도구를 제공하기 위한 연구도 시도되고 있다.
생물정보학을 이용한 HIV의 진화 및 계통 연구는, 서로 다른 두 바이러스가 같은 세포에 감염된 후 서로의 유전자를 교환함으로 생성되는 재조합체를 다루고 현재 가장 각광받고 있는 차세대 염기서열 분석방법(Next Generation Sequencing; NGS) 과의 접목으로 연구의 영역이 더욱 넓어져 갈 것으로 예상된다.
1) 선택압(selective pressure) : 자연돌연변이체를 포함하는 개체군에 작용하여 경합에 유리한 형질을 갖는 개체군의 선택적 증식을
재촉하는 생물적, 화학적 또는 물리적 요인주석
Ⅳ. 참고문헌
1. Worobey M, Gemmel M, Teuwen DE et al. Direct evidence of extensive diversity of HIV-1 in Kinshasa by 1960. Nature 2008, 455, 661-664
2. Salemi M and Vandamme AM. The Phylogenetic Handbook: A Practical Approach to DNA and Protein Phylogeny. Cambridge University Press; 1 edition (September 1, 2003)
3. AJ Drummond and A. Rambaut. BEAST: Bayesian evolutionary analysis by sampling trees. BMC Evolutionary Biology. 2007, 7:214.
4 Korber B, Muldoon M, Theiler J et al. Timing the ancestor of the HIV-1 pandemic strains. Science 2000, 288: 1789-1796
5. Hue S, Pillay D, Clewley J and Pybus O. Genetic analysis reveals the complex structure of HIV-1 transmission within defined risk groups. PNAS, 2005, vol. 102, no. 12
6. Salemi M, Goodenow M, Montieri S et al. The HIV Type 1 Epidemic in Bulgaria Involves Multiple Subtypes and Is Sustained by Continuous Viral Inflow from West and East European Countries. AIDS Research and Human Retroviruses. 2008. 24: 6
7. Oliveira T, Pybus O, Andrew Rambaut A et al. Molecular epidemiology: HIV-1 and HCV sequences from Libyan outbreak. Nature 2006, vol. 444.
8. Salemi M, Lamers S, Yu S et al. Phylodynamic Analysis of Human Immunodeficiency Virus Type 1 in Distinct Brain Compartments Provides a Model for the Neuropathogenesis of AIDS. J Virol 2005. Vol. 79, No. 17