본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

바이러스 유전자 DB 구축과 활용
  • 작성일2010-09-10
  • 최종수정일2021-04-15
  • 담당부서감염병감시과
  • 연락처043-719-7173

   

  바이러스 유전자 DB 구축과 활용
Construction and application of virus sequence database


질병관리본부 국립보건연구원 면역병리센터 신경계바이러스과     
  


Ⅰ. 들어가는 말
  세계적으로 전염병이 두 번째 사망요인으로 알려져 있으며 병원체의 토착화와 신변종 병원체의 출현은 인류 건강을 지속적으로 위협하고 있다[1]. 특히 신변종 전염병은 사망이라는 직접적인 피해 이외에 이로 인한 사회경제적 손실은 한 국가의 경제성장에 영향을 미칠 정도로 크다. 한 예로, 2003년 발생한 사스(급성호흡기증후군)는 세계경제에 800억 달러(약 96조원)의 직간접적인 피해를 입혔다[2]. 최근  전염병 발생 양상은 인간과 동식물의 국가 간 또는 대륙 간 이동의 증가, 무역 증대 등의 경제사회학적 요인, 동물의 서식환경 변화 등의 생태학적 요인 그리고 병원체의 병원성 변화 등의 분자생물학적 요인으로 인하여 발생양상이 바뀌었으며 지속적인 변화가 예상되고 있다[3]. 최근에 보고된 신변종 전염병은 빠르게, 집단적으로, 그리고 여러 국가에서 동시다발적으로 발생하였으며, 국제사회의 공동 대응에 따른 조기 근절로 질병의 토착화는 되지 않고 있다. 신변종 전염병이 토착화되는 데는 다양한 요소가 영향을 미치며, 숙주 특이성과 병원성 변화를 일으키는 병원체의 유전자 변이, 병원체의 낮은 자연 면역 형성유도, 병원체의 지속적인 유입, 병원체의 증식과 전파를 돕는 강력한 중간숙주 존재 여부 등도 이들 요소에 포함된다[4].
  위에서 언급한 병원체의 유전자 변이는 신변종 전염병의 출현과 질병의 토착화에 중대한 영향을 미친다. 따라서 병원체의 유전자 변이, 특히 병원성과 숙주 특이성에 영향을 미치는 유전자의 변이 감시는 신변종 전염병 출현을 감시하는 방법 중 하나이다. 효과적인 감시를 위하여 필요한 것 중 하나는 병원체의 유전자 염기서열과 역학사항 등의 관련된 정보를 체계적으로 정리하여 제공하는 데이터베이스(DB) 구축이다.

  현재 많연구자들이 활용하고 있는 대표적인 병원체 유전자 정보 DB는 Table 1에 요약되어 있는 것과 같이 1980년대 중반에 구축된 GenBank(미국), EMBL Nucleotide Sequence DB(유럽, 일명 EMBL-Bank) 그리고 DNA Database of Japan(DDBJ, 일본)이다[5-7]. 최근에 유전자 염기서열 분석기술의 급속한 발전으로 유전자 정보 생산량은 급격하게 증가되고 있다. GenBank와 EMBL-Bank는 1986년부터, 그리고 DDBJ는 1987년부터 국제협력(International Nucleotide Sequence Database Collaboration)을 통하여 신규 및 갱신된 유전자 정보를 일일기준으로 공유하고 있다. 이와 같은 DB  이외에도 특정 병원체에 대한 유전자 DB도 구축되었다. 그 예로 Los Alamos National Laboratory의 인간면역결핍증 바이러스(human immunodeficiency virus, HIV) DB(http://www.hiv.lanl.gov/content/index), HIV Molecular Immunology DB(http://www.hiv.lanl.gov/content/immunology), C형 간염바이러스 DB(http://hcv.lanl.gov/content/index), 및 인유두종 바이러스 DB(http://hpv_web.lanl.gov), 그리고  스탠포드 대학의 HIV Drug Resistant DB(http://hcv.lanl.gov/content/index) 등이 있. 2009년부터 빅토리아 대학(캐나다)에서는 미국 국립보건원의 연구비로 국립알레르기감염병연구소가 지정한 카테고리 A-C 병원체에 대한 DB를 구축하고 있다.
  국내에서도 병원체 유전자 정보 DB가 구축되고 있으며 여기에 소개하는 바이러스 유전자 DB(Virus Sequence Database, http://vsd.kdca.go.kr)는 2007년에 서비스를 시작한 국내 유전자 정보 DB의 선두주자라고 할 수 있다.
  이 글에서는 현재 운용되고 있는 바이러스 유전자 DB의 주요 특징을 기술하고자 한다.


Ⅱ. 몸 말
  바이러스 유전자 DB는 바이러스의 유전자 변이 탐색과 분자역학, 바이러스 진화, 백신 및 진단제 개발 등의 관련 연구분야에 활용할 목적으로 구축되었으며, GenBank의 유전자 염기서열의 원자료에  더하여 다양한 역학정보와 유전자 정보 분석도구를 제공하는 가공된 2차 DB이다(Figure 1). 바이러스 유전자 DB는 병원체의 유전자 정보와 분자역학적 분석과 연구에 필요한 정보를 통합적으로 제공하며, 연구자의 편의성이 강화된 연구자 친화적인 DB이다. DB 구축 대상 바이러스는 유전자 변이가 많이   일어나며 혈청형, 유전자형이 다양한 바이러스와 고위험병원체로 현재 유전자 DB가 구축되지 않은   바이러스를 대상으로 하였다. 따라서 HIV, 인플루엔자 바이러스 등은 국내외에 DB가 있으므로 대상  목록에서 제외하였다. DNA 바이러스로 100가지 이상의 유전형이 보고되어 있는 인유두종 바이러스(human papilloma virus; HPV)의 HPV16과 HPV18형 등은 자궁경부암을 일으키며 지역적으로 유전자 변이체의 분포양상이 달라 분자역학적 연구에 필요한 DB 구축이 요구되어 대상 바이러스로 선정되었다.
                                                       

  바이러스 유전자 DB는 2006에 구축을 시작하여 2007년 말에 한타바이러스와 로타바이러스의 유전자 DB의 구축을 완료하여 서비스를 개시하였다. 이어 코로나바이러스, 노로바이러스, 플라비바이러스(일본뇌염바이러스, 뎅기바이러스, 웨스트나일바이러스, 황열바이러스 등), 그리고 엔터로바이러스의 유전자 DB를 2차 오픈하였다. 2010년 상반기까지 인유두종바이러스, 고위험병원체인 아레나바이러스, 헤니파바이러스(헨드라바이러스, 니파바이러스), 에볼라바이러스 및 마버그바이러스의 유전자 DB를 추가하여 현재 총 11종의 바이러스 속(genus)에 대한 64,977개의 염기서열 정보를 연구자에게 제공하고 있다(Table 2). 바이러스 유전자 정보는 염기서열 분석기술의 발전으로 하루가 다르게 대량 생산되고 있어 최신의 정보를 제공하기 위하여 2009년에 1차 DB 콘텐츠 갱신작업을 완료하였으며 2010년 말까지는 2차 콘텐츠 갱신작업이 이루어질 예정이다.
  바이러스 유전자 DB는 바이러스 유전자 염기서열 자료를 GenBank에서 제공받아 문헌검색을 통하여 수집한 역학정보들을 DB에 직접 입력하는 방식으로 콘텐츠를 구성하였다(Figure 2). 각 바이러스별로 구성된 정보필드 수는 20-23여 개이며 제공하는 주요 역학정보는 병원체 분리지역, 분리연도, 분리숙주, 임상증상, 검체종류, 혈청형, 유전자형, 항원형 등이다. 병원체 특성이 반영되어 바이러스별 역학정보 구성
항목에 차이가 있으며 원시자료에 없는 새로운 정보들이 입력되거나 수정된 건수는 수 건에서부터 전체 정보가 모두 수정된 것에 이르기기까지 다양하다. 예를 들면, 한타바이러스의 유전자형과 분리국가에  대한 정보는 전체 2,587개 염기서열 정보 중에서 각각 99.8%와 91.5%가 입력되어 있다. 즉 이러한 정보는 GenBank의 원자료에는 없으며 필요한 경우에는 연구자가 직접 해당 바이러스에 대한 정보를 검색하는 불편을 감수하여야 찾을 수 있다.
                                                       
  바이러스 유전자 DB는 유전자 정보 분석도구로 BLAST, ClustalW, Phylip, Genotyping, Primer3, PSI-BLAST, EMBOSS를 제공하고 있다. EMBOSS를 제외한 나머지 분석도구의 사용법은 visual guide 형태로 제공하여 연구자들이 편리하게 사용하도록 하였다. EMBOSS 사용법은 http://emboss.sourceforge.net에서 제공하고 있다[8]. 바이러스 유전자 DB에서는 각 분석도구의 output option에 대한 설명(풍선   도움말)을 제공하여 누구나 편리하게 분석도구를 사용하도록 하였다. 분석결과는 실시간으로 제공하는 것을 원칙으로 하고 있으나 연구자가 요청한 정보의 분석량이 많아 소요시간이 긴 경우에는 분석결과를 전자메일로 제공하고 있다. 2010년 6월말까지 2,650여 회에 걸쳐 분석도구가 사용되었으며 분석도구별 사용률은 BLAST가 전체 분석도구 중 31%를 차지하여 가장 빈번하게 사용되었다. 다음으로는 FASTA
(27.1%), ClustalW(17.4%), Excel download(12.8%), Phylip(10.7%) 그리고 PSI-BLAST(1.1%) 순이었다.
  바이러스 유전자 DB에는 사용자의 편의성을 제공하고자 여러 기능들이 서비스되고 있다. 예를 들면, 연구자가 DB에서 검색한 정보나 본인 소유의 염기서열 정보를 저장하는 MyVSD 기능(사용자 등록   필수), 염기서열 변이(deletion, insertion, replacement)에 따른 아미노산 서열의 변이여부와 변이위치를 표시하는 기능과 바이러스 정보에 대한 대륙별 검색 기능 등이다. 연구자에 편의성을 제공하는 이와 같은 기능들을 지속적으로 개발하고 있다. 또한 DB의 관리자 기능을 강화하고자 원시자료에 수정·추가된 정보를 모니터링하는 curation 변경 항목 보고 및 통계자료 제공 기능, DB 콘텐츠 갱신이 필요한 정보량을 알기 위한 바이러스 유전자 DB와 GenBank의 정보량 차이 검색 기능 등을 구축하였다. 또한 사용자 개인별 메뉴인 MyVSD 기능은 바이러스 시퀀스 데이터 등록, 수정, 삭제 및 결합 등의 기능을 통해   개인별 관심 데이터에 대한 자료를 수집 및 관리하는 기능도 추가하였다. 시스템 측면에서는 무료 소프트웨어인 Ubuntu, MySQL 기반의 시스템에서 상용 소프트웨어인 RedHat, Oracle 기반으로 변경함으로써 DB의 안정성을 향상시켰다.
  바이러스 유전자 DB의 방문자 현황을 보면 월 평균 히트수가 서비스 초기인 2008년에는 23만이었으나, 2009년에는 33만으로 증가하였다. 바이러스 유전자 DB의 고급 정보와 서비스를 제공 받으려면 사용자 등록이 필요하지만 로그인 없이 누구나 접근이 가능하다. 현재까지 일본, 미국, 캐나다 등 10여 개 국가의 연구자들이 사용자 등록을 하였다.


Ⅲ. 맺는 말


  바이러스 유전자 DB는 연구 인프라의 한 축을 구성하고 있다. 무엇보다도 병원체의 분자유전학적  계통분석을 용이하게 해준다. 연구자가 특정 바이러스의 계통분석을 하기 위해서는 GenBank 등에서  검색을 통하여 찾은 바이러스 유전자의 개별 정보를 다운받아 연구자 개인 PC에 1차로 저장한 다음  해당 프로그램을 이용하여 포맷지정 및 분석을 하게 된다. 바이러스 유전자 DB는 본 DB의 특징 중   하나인 강력한 검색도구를 이용하여 연구자가 찾는 정보를 빠르고 쉽게 찾아 분석 포맷으로 저장할 수 있다. 여기서 중요한 부분은 비교대상 바이러스를 선정함에 있어 유행지역, 유행시기, 유행주 등의 역학적인 사항을 고려하여 선정함으로써 생물학적 특징과 역학적 특징이 종합된 결과를 얻을 수가 있다.  유전자 정보가 대량으로 쏟아지는 상황에서 연구자가 각각의 바이러스에 대한 역학정보를 정리해 나가는 것은 현실적으로 어렵다. 또한 역학사항이 결여된 채 바이러스학적 또는 유전학적 특성 분석만으로는 신변종 병원체의 출현을 감시하는 데는 한계가 있다.
  바이러스 유전자 DB는 1980년 중반에 구축되어 많은 연구자들이 활용하고 있는 GenBank, EMBL-Bank 그리고 DDBJ에 비하면 역사가 매우 짧은 DB이다. 그러나 최근에 국가위기를 초래하는 위험성이 높은 특정병원체에 대한 DB가 외국(http://athena.bioc.uvic.ca)에서 구축되고 있다는 사실을 두고 볼 때 바이러스 유전자 DB는 국제 DB 시장의 틈새를 전략적으로 공략한 DB로 향후 그 역할과 활용이 기대된다.
  DB 구축에는 많은 예산과 시간이 요구되며 지속적으로 콘텐츠를 개발하고 갱신해야 생명력 있는 DB가 된다. 앞으로 바이러스 유전자 DB의 콘텐츠를 확대하고 최신 자료를 신속히 업데이트하여 DB 경쟁력을 높이고 지속적으로 분석도구 기능과 DB 관리기능을 강해 나갈 것이다.


Ⅳ. 참고문헌

 1. Fauci AS. Infectious diseases: consideration for the 21st century. Clin Infect Dis. 2001;32:675-85.
 2. Knobler S, Mahmound A, Lemon S, Mack A, Sivitz L and Oberholtzer K (eds). Workshop summary. In: Learning from SARS: Preparing for the Next
     Disease Outbreak. Washington, DC: National Academies Press, 2004:11.
 3. Jones KE, Patel NG, Levy MA, Storeygard A, Balk D, Gittleman JL and Daszak P. Global trends in emerging infectious diseases. Nature. 2008;451:990-4.
 4. Randolph SE and Rogers DJ. The arrival, establishment and spread of exotic diseases: patterns and predictions. Nat Rev Microbiol. 2010;8:361-71.
 5. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J and Sayers EW. GenBank. Nucleic Acids Res. 2009;37:26-31.
 6. Kanz C, Aldebert P, Althorpe N, Baker W, Baldwin A, Bates K, Browne P, et al. The EMBL nucleotide sequence database. Nucleic Acids Res.
     2005;33:29-33.
 7. Kaminuma E, Mashima J, Kodama Y, Gojobori T, Ogasawara O, Okubo K, Takagi T and Nakamura Y. Nucleic Acids Res. 2010;38:33-8.
 8. Rice P, Longden I and Bleasby A. EMBOSS: The european molecular biology open software suite. Trends Genet. 2000;16:276-7.

 
 

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP