본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

생명공학 오믹스 데이터의 표준화
  • 작성일2010-02-05
  • 최종수정일2012-08-25
  • 담당부서감염병감시과
  • 연락처043-719-7173

 

 생명공학 오믹스 데이터의 표준화
Standardizations in Bio-Omics

     
질병관리본부 국립보건연구원 유전체센터 바이오과학정보과     
    


Ⅰ. 들어가는 말
  생명공학자들의 유명한 우스갯소리 중에 ‘칫솔은 같이 사용해도 같은 유전자 이름은 사용하지 않는다’는 이야기가 있다. 이처럼 유전자가 여러 가지 별칭을 가지고 있을 만큼 다른 분야에 비해 생명공학 분야의 표준화 속도는 느린 편이다. 그러나 근래에 들어와서 생명공학분야에서 표준화가 큰 이슈가 되고 있으며 표준화만을 주제로 하는 학회가 열리고 소모임이 활성화 되고 있다.
  표준화가 활발히 추진되는 배경에는 생명공학 오믹스1) 데이터의 공유가 큰 몫을 하고 있다[1]. 과거에는 개개의 실험실에서 소규모의 연구를 진행하였으며 연구자들이 본인 데이터 외에는 관심을 가지지 않았다. 그러나 대규모의 연구가 진행되면서 데이터를 생산하는데 많은 시간과 비용이 소요되고 여러 데이터 세트를 통합하여 분석하려는 연구자가 늘어나면서 데이터를 공유하려는 움직임이 활발해지고 있다. 데이터 공유에 대한 움직임은 연구비 지원기관(funding agencies)과 학술지 발행처(journal publisher)를 중심으로 이루어지고 있다. 많은 연구비 지원기관에서는 연구비 지원시 데이터 공유를 의무화하고 있으며 학술지 발행처에서는 학술지에 게재 승인을 요청하기 전에 데이터 공개를 유도하고 있다. 많은 연구비 지원기관에서는 해당 기관의 연구비를 받아서 생산되는 데이터에 대한 정책을 수립 중이다[2]. biosharing 웹사이트에서는 데이터 공유관련 정책 및 표준화 등의 정보를 얻을 수 있다[3].
  효과적으로 데이터를 공유하기 위해서는 다른 연구자들이 필요로 하는 데이터 관련 정보들이 표준화된 용어로 제시되고, 공유되는 데이터도 표준화된 형식을 사용하여야 할 것이다. 따라서 데이터를 공유하기 위해서는 크게 데이터 정보 기술형식(data informing checklists), 용어의 표준화(ontology)와 데이터 ���식(data format) 등 세 분야에서 표준화가 이루어져야 한다.


                                     
   1) 오믹스(omics) : 유전체(genomics), 단백질체(proteomics), 대사체(metabolo-mics)와 같이 각 분자생물학 분야의 연구를 총체적으로
      지칭하기 위하여 사용되는 접미어. 또한 유전체, 단백질체, 대사체 등 모든 ‘-omics’를 통틀어 일컫는 말이기도 함.
                                       


Ⅱ. 몸 말

   본 원고에서는 데이터 공유를 위해 표준화가 필요한 데이터 정보 기술형식(data informing checklists), 용어의 표준화(ontology) 및 데이터 형식(data format)과 관련된 프로젝트를 차례로 소개하고자 한다.

  1. 데이터 정보 기술형식(Data Informing Checklists)
  데이터를 유용하게 공유하기 위해서는 공유하고자 하는 데이터에 대한 설명이 명확하고 충분하게 제시되어야 한다. 이를 위해 다른 연구자들이 필요로 하는 정보들이 모두 제공되어야 하며 제공되는 정보들이 표준화된 형식과 용어를 사용하여 기술되어야 한다. 이러한 데이터 기술형식의 표준화에 대한 여러 프로젝트를 유기적으로 추진하기 위하여 MIBBI(Minimum Information for Biological and Biomedical Investigations) 컨소시엄이 구성되었다[4,5]. 컨소시엄 이름에서 사용된 ‘Minimum'의 뜻은 데이터 공유시 최소한 제공하여야 하는 정보 목록을 도출하는 것을 목표로 삼았기 때문에 붙여진 것이다. MIBBI에는 아래에 언급한 18개의 프로젝트가 등록되어 있다.
                                      

  ○ CIMR(Metabolomics Standards Initiative's Core Information for Matabolomics Reporting)
   - 대사학(metabolomics) 실험 및 데이터 관련 표준화
   - 미생물학, 동물학, 식물학을 포함한 전반적인 생물학 분야, 크로마토그래피와 핵자기공명법(NMR)과 같은 분석방법 및 통계분석방법
     등에 중점
   - http://msi-workgroups.sourceforge.net/
  ○ MIACA(Minimum Information About a Cellular Assay)
   - Cell perturbation 실험 및 데이터 관련 표준화
   - siRNA 또는 소화합물(small chemical compound)과 같은 분자 또는 온도변화와 같은 환경 자극인자를 사용한 cell perturbation
     실험 및 실험 데이터 등에 중점
   - http://miaca.sourceforge.net
  ○ MIAME(Minimum Information About a Microarray Experiment)
   - 유전자 발현용 마이크로어레이(Microarray) 실험 및 생산된 데이터 분석 관련 표준화
   - MGED(Microarray and gene expression data society)가 주최
   - http://www.mged.org/Workgroups/MIAME/miame.html
  ○ MIAPA(Minimum Information About a Phylogenetic Analysis)
   - 생물에서 유래된 각종 서열(예, DNA서열, 단백질서열)의 정렬(alignment) 소프트웨어 및 계통도(phylogenies)와 진화파생도
      (cladograms) 구축을 위한 alignment SW 사용법 관련 표준화
   - http://www.mibbi.org/index.php/projects/MIAPA
  ○ MIAPE(Minimum Information About a Proteomics Experiment)
   - 질량분석기(mass spectrometry), 전기영동기(gel electro-phoresis) 또는 액체크로마토그래피(liquid chromato-graphy)등의 분석
     기로부터 생산되는 데이터 및 분석방법 관련 표준화
   - http://www.psidev.info/miape/
  ○ MIARE(Minimum Information About an RNA interference Experiment)
   - High-throughput RNA interference screen 관련 표준화
   - siRNA 또는 small hairpin RNA 등의 RNA를 cellular assay 또는 유세포분석기(flow cytometry)를 활용하여 screen하는 실험 및
     실험 데이터에 중점
   - http://www.miare.org/
  ○ MIFlowCyt(Minimum Information About a Flow Cytometry Experiment)
   - 세포의 상태 또는 기능을 측정하기 위한 유세포분석기(flow cytometry) 사용법 관련 표준화
   - 분석 샘플, 탐침(probe), 형광색소(fluorochrome)와 실험기기, 생산된 데이터 분석 방법에 중점
   - http://flowcyt.souceforge.net/
  ○ MIGen(Minimum Information About a Genotyping experiment)
   - SNP(Single nucleotide polymorphism) 또는 microsate-llite를 판별(genotyping)하는 방법과 생산된 데이터, 유전역학 연관성 연구
     (genetic association) 및 변이간의 연관성 분석(linkage analysis) 관련 표준화
   - http://www.mibbi.org/index.php/projects/MIGen
  ○ MIGS(Minimum Information About a Genome Sequence)
   - 유전자 서열, 위치, 염기서열분석(sequencing) 방법 등에 관한 표준화
   - DDBJ, EMBL, GenBank와 같은 국제적 서열 데이터베이스 표준화의 확장이며 MIMS와 유기적으로 운영
   - http://gensc.org/
  ○ MIMS(Minimum Information About a Metagenomic Sequence/Sample)
   - 메타게놈의 서열 및 샘플 관련 표준화
   - MIGS와 유기적으로 운영
   - http://gensc.org/
  ○ MIMIx(Minimum Information About a Molecular Interaction experiment)
   - 분자 상호작용을 밝히기 위한 실험 관련 표준화
   - 상호작용을 알아보기 위한 분자, 실험 방법 및 분자들의 역할(생물학적 기능이 아닌 실험에서의 역할) 등에 중점
   - http://www.psidev.info/
  ○ MIMPP(Minimum Information About a Mouse Phenotyping Procedures)
   - 마우스(mouse)의 표현형을 구분하는 프로토콜(protocol) 관련 표준화
   - 행동성 표현형과 생리학적 표현형을 모두 포함
   - http://www.interphenome.org/
  ○ MINI(Minimum Information About a Neuroscience Investigation)
   - 신경과학 연구에서 활용되는 전기생리학 관련 표준화
   - http://carmen.org.uk/standards/
  ○ MIQAS(Minimum Information for QTLs and Association Studies)
   - QTL(Quantitative trait loci)와 그 형질에 유의한 유전자 지표(genetic marker) 관련 표준화
   - http://miqas.sourceforge.net/
  ○ MIqPCR(Minimum Information about a Quantitative Polymerase Chain Reaction)
   - Quantitative PCR관련 실험에 사용되는 변수(param-eter) 관련 표준화
   - http://www.rdml.org/
  ○ MIRIAM(Minimum Information Requested In the Annotation of biochemical Models)
   - 생화학 시스템(biochemical system)의 이론적인 모델 기술 관련 표준화
   - http://biomodels.net/miriam
  ○ MISFISHIE(Minimum Information Specification For In Situ Hybridization and Immunohistochemistry
     Experiments)
   - ISH(In situ hybridization) 또는 IHC(immunohistoc-hemistry) 실험 관련 표준화
   - http://mged.sourceforge.net/misfishie/
  ○ STRENDA(Standards for Reporting Enzymology Data)
   - 효소 반응 실험 및 실험데이터 관련 표준화
   - 관련 심포지움(ESCEC, Experimental Standard Conditions of Enzyme Characterization) 격년 개최
   - http://www.strenda.org/

  2. 용어의 표준화(Ontology)
   통일된 용어를 사용하는 것은 데이터 공유시 뿐만 아니라 시스템 생물학과 같이 여러 곳으로부터 유래된 데이터를 통합하여 연구를 진행할 때 매우 중요하다. 용어의 표준화에 대한 관심은 다른 두 분야보다 일찍 시작되었으며 MIBBI보다 먼저 OBO(Open Biomedical Ontologies)라는 온톨로지(Ontology; 이하 용어의 표준화) 관련 컨소시엄이 구성되었다[6,7]. 사실 MIBBI는 OBO를 모범으로 삼아 구성된 것이다. OBO에는 약 50개의 프로젝트가 등록되어 있으며 대표적인 프로젝트만을 소개하면 다음과 같다.

  ○ GO(Gene Ontology)
   - 유전자 및 단백질과 같은 유전자 산출물 관련 용어 표준화
   - 가장 많이 주목을 받는 프로젝트로서 NHGRI와 EBI를 비롯한 많은 기관에서 참여 및 지원을 함
   - http://www.geneontology.org
  ○ SO(Sequence Ontology)
   - 생물학적 서열의 유형 및 특성 관련 용어 표준화
   - WormBase, FlyBase, Mouse Genome Informatics와 Sanger Institute 등이 추진하고 있음
   - http://www.sequenceontology.org
  ○ PRO(Protein Ontology)
   - 단백질과 단백질간의 상관관계 관련 용어 표준화
   - http://pir.georgetown.edu/pro/
  ○ SBO(Systems Biology Ontology)
   - Systems biology 분야에서 필요한 용어 표준화
   - http://pir.georgetown.edu/pro/
  ○ CL(Cell Ontology)
   - 원핵생물부터 포유류까지 존재하는 모든 세포 유형 관련 용�� 표준화
   - http://obofoundry.org/cgi-bin/detail.cgi?cell
  ○ OBI(Ontology for Biomedical Investigations)
   - 생명의료공학 연구에서 활용되는 프로토콜(protocol), 기기 및 분석방법에 관련 용어 표준화
   - 방대한 분야를 다루기 때문에 각 분야별로 소그룹을 구성해서 추진하고 있음
   - http://obi-ontology.org/
  ○ DO(Disease Ontolgy)
   - 인간 질병 관련 용어 표준화
   - http://diseaseontology.sf.net
  ○ FMA(Foundational Model of Anatomy)
   - 인간을 포함한 포유류 신체 구조관련 용어 표준화
   - http://fma.biostr.washington.edu

  3. 데이터 형식(Data Format)
  데이터 정보 기술 형식이나 온토로지보다 이 분야의 표준화 속도는 훨씬 더 느린 편이다. 분야별로 다양한 데이터가 생산되고 또한 실험기기마다 다른 형식의 데이터가 생산되는 것이 큰 어려움중의 하나이다. 또한 이 데이터 형식 분야는 앞의 두 분야와 달리 관련 표준화 프로젝트를 아우르는 MIBBI나 OBO와 같은 컨소시엄이 아직 존재하지 않는다. 대표적인 프로젝트만을 소개하겠다.

  ○ MAGE-TAB(MicroArray and Gene Expression TAB)
   - 유전자 발현용 마이크로어레이(Microarray)에서 생산된 데이터 형식 표준화
   - MGED(Microarray and gene expression data society)가 주최
   - http://www.mged.org/mage-tab/
  ○ HUPO PSI(Human Proteome Organisations Proteomics Standards Initiative)
   - 단백질체학(proteomics) 관련 데이터 표준화
   - 질량분석기(mass spectrometry), 전기영동기(gel elec-trophoresis) 등에서 생산된 데이터 표준화
   - http://www.psidev.info
  ○ SBML(Systems Biology Markup Language)
   - 생물학적 현상(Biological process)의 모델에 사용하는 데이터 표준화
   - 대사학(metabolism), 세포신호(cell-signaling) 등의 시뮬레이션에 사용
   - http://sbml.org/
  ○ SRF(Sequence Read Format)
   - DNA 서열 데이터 표준화
   - 연구자와 더불어 서열분석기기 업체(Roche, Illumina, ABI)도 참여하고 있음
   - http://srf.sourceforge.net/


Ⅲ. 맺는 말


  위에서 언급하였듯이 현재 생명공학 오믹스 데이터의 표준화는 연구비 지원기관, 학술지 발행처가  주축이 되어 추진되고 있다. 하지만 이러한 표준화 작업에는 데이터 공유의 주체가 될 연구자와 데이터를 생산하는 기기를 제공하는 기기업체들의 적극적인 참여가 필수적이다. 연구자와 기기 생산업체들이   참여함으로써 현실적이고 널리 활용될 수 있는 표준화가 이루어질 것이다. 미국 NCBI와 유럽 EBI 등 미국과 유럽의 기관 및 연구자를 중심으로 표준화가 추진되고 있는데 우리나라도 적극적으로 참여할  필요가 있다. 현재 우리나라는 단백질 관련 표준화 컨소시엄에 참여하고 있는 실정이다.

Ⅳ. 참고문헌

 1. Field, D.(2009) Science 326, p.234-236
 2. http://biosharing.org/2009/03/data-policies-of-major-funding-agencies.html
 3. http://biosharing.org
 4. http://www.mibbi.org
 5. Taylor, C.F. et al.(2008) Nature Biotechnoloy 26(8), p.889-96
 6. http://www.obofoundry.org
 7. Smith, B. et al.(2007) Nature Biotechnology 25(11), p.1251-5.

 
 

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP