본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

근육병 희귀질환 임상-유전체 연계분석 연구 동향
  • 작성일2018-03-22
  • 최종수정일2019-09-10
  • 담당부서희귀질환과
  • 연락처043-719-8772
근육병 희귀질환 임상-유전체 연계분석 연구 동향

질병관리본부 국립보건연구원 생명의과학센터 희귀질환과
황주연, 안윤진*

*교신저자: carotene@korea.kr, 043-719-8772


Abstract

Next-generation sequencing approaches for neuromuscular disorders


Hwang Joo-Yeon, Ahn Younjhin
Division of Rare Diseases, Center for Biomedical Sciences, KNIH, KCDC

Inherited primary myopathy with onset at an early age exhibits genetic heterogeneity and clinical variability, and can be sub-classified into muscular dystrophy, congenital myopathy, mitochondrial myopathy, and metabolic myopathy. The common features involve abnormalities of the muscle cell structure and metabolism that contribute to muscle weakness and dysfunction.
Rapid improvements in massively parallel sequencing platforms have led to important opportunities for identifying clear-cut genotype-phenotype correlations in heterogeneous hereditary conditions. To date, mutations in more than 100 different genes have been identified in hereditary primary myopathies. However, molecular genetic diagnostics are complicated by the overlapping phenotypes associated with frequently mutated genes such as TTN reported in public exomes databases.
Recently, the Korea National Institute of Health (KNIH) has been focused on uncovering and identifying disease-causing variants through a family-based whole-exome sequencing approach. Integrative functional enrichment analyses have provided valuable information for gaining a better understanding and interpretation of novel variants, including functional annotations of structural variation and genetic regulation. We expect that our findings will provide additional insight into phenotypic convergence in the diagnosis of muscle disorders.

Keywords: Whole exome sequencing, Genotype-phenotype correlation, Trio-CES, Myopathy, Neuromuscular disorders



들어가는 말


인간게놈해독 프로젝트(Human Genome Project)에 약 30억 달러의 비용과 10년 이상의 긴 시간이 소요되었다. 노벨상 수상자인 프레드릭 생어(Frederick Sanger)에 의해 개발된 전통적인 1세대 기술인 “Sanger sequencing” 방법은 비약적인 기술개발이 거듭되면서 대용량(High throughput)처리와 빠른 속도(High speed)의 데이터 생산이 가능한 차세대염기서열해독법(Next generation sequencing, NGS)으로 발전하였다. 이러한 2세대 시퀀싱 기술의 속도와 비용, 그리고 대용량 정보 분석에 드는 소요 시간은 이후 반도체 기술발전의 성능 향상을 뜻하는 무어의 법칙(Moore’s raw)을 훌쩍 넘어섰다. 3세대 신기술(중합효소연쇄반응 및 형광체 미사용)로 이어지면서 분석비용은 1,000 달러 이하로 크게 감소되었으며 시퀀싱 소요시간은 1시간 이내로 단축되었다. 이제는 소비자가 직접 유전자 검사 서비스(Direct-to-consumer)를 의뢰할 수 있고 DNA 앱스토어, DNA 인터넷 등을 통해 유전자 분석 결과를 받아 볼 수 있는 비즈니스 모델들이 상용화 되고 있다. 차세대 시퀀싱 관련 기술들은 매년 “MIT Technology review”에서 꼽는 주요 혁신 기술 10개 부문에 꾸준히 선정되고 있다. 지난 1980년대에 개인용 PC가 1,000 달러에 보급되어 인류 행복과 삶의 질 향상에 큰 변화를 일으켰듯이, 이제 개인 유전정보의 시대(1,000 달러 게놈 시대)에 접어들면서 대부분(80% 이상)이 유전성으로 알려진 희귀질환의 유전자 진단 및 치료기술개발 분야에 새로운 변화를 맞이할 것으로 기대되고 있다. 이 글에서는 국립보건연구원에서 수행중인 근육병 희귀질환 관련 임상-유전체 분석연구에 대한 기술 동향을 소개하고자 한다.



몸 말


임상 엑솜시퀀싱(Clinical exomes sequencing, CES) 방법은 2012년 초 미국 캘리포니아대학(UCLA)에서 시작한 연구이다. 이 방법은 임상, 생화학, 방사선 검사 등으로 정확한 진단이 어려운 유전성 희귀질환(Rare mendelian disorders)을 대상으로 환자 및 환자 부모의 임상 정보와 엑솜시퀀싱 데이터를 연계하여 분석한다. 질환에 대한 유전형-표현형(Genotype-phenotype) 분석을 통해 환자의 진단 및 치료전략 결정을 위한 결과 해석과 정보 제공 과정이 이루어진다(Figure 1). 이러한 분자진단(Molecular diagnosis)법을 통해 환자에게 정보가 제공되기까지의 기간(Turnaround time, TAT)은 약 12주 이내이며, 보다 빠르고 정확한 정보 제공을 위한 연구개발이 시도되고 있다. 트리오 가계(Affected proband with both parents) 기반의 전장엑솜시퀀싱 분석법은 개별 환자만을 대상으로 한 분석결과에 비해 진단 정확도가 높으며, 기존의 단일유전자 중심(Gene-by-gene approach) 시퀀싱이나 유전자패널 검사(Targeted gene panel testing) 방법으로 찾기 어려웠던 신규 유전변이(de novo variant), 신규 복제수변이(de novo copy number variation) 및 복합이형접합체(Compound heterozygote)에 대한 발굴이 가능하다.
근육병 희귀질환은 임상·표현형의 다양성(Clinical and phenotypic variabilities) 및 유전적 이질성(Genetic heterogeneity)이 높은 질환중 하나로, 임상-유전체 연계분석을 통한 원인유전자 발굴(Disease-causing gene discovery) 연구가 진행되고 있다. 초기 분자진단은 dystopian(DMD)과 같은 단일표적(Gene-by-gene approach) 유전자에 대한 타겟 시퀀싱 및 유전자 패널 시퀀싱 방법이 사용되었으며, 최근에는 전장엑솜시퀀싱(Whole exome sequencing; WES)을 통한 진단검사가 이루어지고 있으나 진단율은 약 20~35% 정도이다.
주요 선진국에서는 상세불명 및 유전성 희귀질환을 대상으로 FORGE(캐나다), DDD(영국), UDP(미국) 등 임상 엑솜시퀀싱 기반의 대규모 국가 프로젝트 및 국제 협력연구가 진행 중이다(Table 1). 캐나다의 대규모 컨소시엄 FORGE 프로젝트는 2010년 유전체센터 21개소 및 과학기술혁신센터 3개소로 구성하였으며, 소아기 발병 희귀질환의 진단 지원을 위해 원인돌연변이 발굴 사업을 시작하였다. 총 417개 질환을 대상으로 연구를 수행한 결과, 232건(55.6%)은 정확한 진단(기보고 질환 161건 및 신규질환 71건)이 가능하였으나 나머지 185건(44.4%)은 진단이 어려운 상세불명 희귀질환으로서 미확인변이(Variant unknown significance; VUS)에 대한 다각도 검증분석이 필요한 것으로 밝혀졌다.
돌연변이 발굴을 위한 전장엑솜시퀀싱 분석과정은 크게 유전체 정보생산 및 정도관리(변이 및 샘플 정제), 데이터 분석 및 검증 단계로 구분된다. 또한 각 단계별 분석 툴은 VCF(Variant call format)파일 생성 전과 후로 나누어 볼 수 있는데, 전 단계는 FASTQ 파일로부터 시퀀싱 서열 단편들의 매핑, 정도관리, 변이검출 및 참조정보 주석, VCF 파일 생성 과정이며, 후 단계는 생성된 VCF 파일을 바탕으로 임상·표현형 정보와 연계하여 단일유전변이 및 복제수변이, 반복서열 등 구조변이 탐색과 발굴된 변이들에 대한 기능조절 예측분석 등이 해당한다(Figure 2).
인간유전체는 약 30억 전장염기서열로 구성되며, 이 중 단백질 합성 유전자(Protein-coding gene)는 약 2만 개에 해당한다(평균 약 11.4개 엑손/유전자). 변이 자체는 개인당 약 3~4만 개 정도이지만 유전성 희귀질환의 원인 위험인자로서 가능한 non-synonymous, missense, splicing, indels 등 단백질 구조이상변이(Protein altering variant) 만을 추출하면 약 1만 개 정도이다. 이중 인구집단기반 참조 유전체 데이터베이스(예, ExAC, 1,000GP, UK10K 등)로부터 변이 빈도수(> 0.01%) 정보를 기준으로 단일염기서열다형성에 해당하는 변이들을 제외하고 나면, 희귀질환 원인유전인자 발굴분석(Genotype-phenotype analysis)에 사용될 약 100~200개 변이로 좁혀지게 된다. 근육병 희귀질환의 임상-유전체 분석연구 결과를 살펴보면, 대부분 상염색체 열성(Autosomal recessive) 형태의 유전형으로부터 신규 유전자 및 변이가 발굴되고 있으며, 분석 단계별(Alignment, variant calling, annotation 등) 다양한 분석 툴이 적용되고 있다(Table 2). 희귀질환의 경우 종류는 다양하지만 아직 연구에 필요한 질환 정보와 임상자원은 부족하기 때문에 각 질환 특성을 고려한 후속 분석법 확립이 중요하다.
최근 전장 엑솜데이터 분석 시 자주 등장하는 다빈도 변이 유전자(Frequently mutated genes in public exomes)들이 있다. 이로 인해 연구자들은 후속 검증연구에 앞서 후보 기능유전자 선정 및 우선순위 결정에 혼란을 겪고 있다. 근육병 희귀질환에서 알려진 대표 유전자로 TTN(Titin)이 알려져 있다. TTN 유전자의 경우 가장 긴 단일 엑손(17,106 bp) 뿐 아니라 363개의 많은 엑손을 포함하고 있는 거대 유전자이다. 이러한 다빈도 변이 유전자들을 대상으로 질환 데이터베이스(HGMD, OMIM)와 비교 분석한 결과 다음과 같은 특징을 발견하였다. 1) 유전자 변이 위험도 예측 분석 결과 missense, nonsense, splice site와 같은 기능유전변이(Rare likely-functional variants)를 가지며 유전자 기능 손실(Loss of function)과 연관되고, 2) 아미노산 배열로 번역되는 DNA 염기서열 구간인 ORF(Open reading frame) 길이는 평균 4,233개로 길며, 3) 유전자 중복형 상동서열(Para log)은 유전자 당 평균 약 4개 이상으로 많으며, 4) 단백질 코딩 유전자에 대한 진화상 선택적 방향성을 나타내주는 dN/dS ratio가 높고, 5) 유전자 당 문헌정보 보고 건 수는 평균 51건에 해당하며, 6) 대부분 긴 유전자 길이를 보유하고 있다(Figure 3).
이러한 유전자들은 임상·표현형 간에 중복되는 불확실성으로 인해 각 희귀질환별 재현성 비교분석과 진단·치료 활용을 위한 다각적인 유효성 검증 분석이 수반되어야 할 필요가 있다.
국립보건연구원에서는 근육병 희귀질환 트리오 가계 기반의 엑솜시퀀싱 정보를 바탕으로 분석한 결과, 15개의 근육병 연관 후보 기능유전자 리스트를 확인하였다. 그리고 GTEx(Genotype-Tissue Expression), GEO(Gene Expression Omnibus) 등 공공 데이터베이스로부터 발현 양상을 비교 분석한 결과, 근육 조직에 특이적으로 발현정도의 차이가 나타남을 확인하였다. 향후 기능 후보 유전자에 대한 변이체를 중심으로 RNA-sequencing 기반의 정확한 발현 정량분석(Allele-specific expression) 등 전사체(Tranomics) 심층 연구가 뒷받침 되어야 할 것이다.



맺는 말


희귀질환 임상-유전체 연구는 유전형-표현형간의 관계를 보다 명확히 증명하기 위해 많은 수의 환자사례가 필요하다. 최근 국제희귀질환네트워크를 중심으로 데이터 공유 시스템을 통한 정보교류와 연구협력이 활발히 이루어지고 있는 추세이다. 또한 진단율(Diagnostic yield) 및 임상효율성(Clinical benefit)을 높이기 위해 전장수준의 유전체, 전사체, 대사체, 후성유전체 분석 등 다양한 오믹스 연계 분석법이 시도되고 있다. 따라서 새로운 질병 기작에 대한 이해도를 높이고 진단·치료기술 개발에 대한 보건의료 연구 인프라 구축 및 정밀의료에 기여할 수 있을 것이다.



참고문헌


1. William G. et al. The NIH Undiagnosed Diseases Program: Insights into rare diseases. Genet Med. 2012;14(1):51-59.
2. Vincenzo N. et al. Next-generation sequencing approaches for the diagnosis of skeletal muscle disorders. Curr Opin. 2016;29:621-627
3. Monkol L. et al. The challenge of next generation sequencing in the context of neuromuscular diseases. J of Neuromuscular Diseases. 2014;1:135-149.
4. Fedik R. et al. Cellular and molecular mechanisms underlying muscular dystrophy. J Cell Biol. 2017;4:499-510.
5. Efthymiou S. et al. Next generation sequencing in neuromuscular diseases. Curr Opin Neurol. 2016;29(5):527-536.
6. Laura K. et al. Genetic diagnosis of Mendelian disorders via RNA sequencing. Nature Communications. 2017;8:15824.
7. Cummings B. et al. Improving genetic diagnosis in Mendelian diseases with tranome sequencing. Sci Transl Med. 2017;9:5209.
8. Jennifer E. et al. Molecular diagnostic experience of whole-exome sequencing in adult patients. Genet Med. 2016;18(7):678-685.
9. Christopher J. et al. Neurology individualized medicine: when to use next-generation sequencing panels. Mayo Clin Proc. 2017;92(2):292-305.
10. Laura K. et al. Genetic diagnosis of mendelian disorders via RNA sequencing. Nat Commun. 2017;8:15824.
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP