본문으로 바로가기 주메뉴 바로가기
이 누리집은 대한민국 공식 전자정부 누리집입니다.

간행물·통계

contents area

detail content area

정확한 유전변이 주석
  • 작성일2015-01-29
  • 최종수정일2024-07-16
  • 담당부서질병감시전략담당관
  • 연락처043-719-7166
정확한 유전변이 주석
Accurate annotation of variants in genome

질병관리본부 국립보건연구원 유전체센터 형질연구과
허 룡, 문상훈, 김영진, 김봉조
Abstract


Background: Single Nucleotide Polymorphism (SNP) has been widely used as a marker indicating unique region in human genome. Using the SNP markers, Genome-Wide Association Study (GWAS) has discovered thousands of SNPs associated with diseases. Despite the importance of uniqueness, however, previous studies have reported that some SNPs in the public databases mapped to multiple positions of genome. These non-unique SNPs (NU-SNP) may result in mislead in interpreting association analysis.
Methods: Using dbSNP data, we profiled and analyzed characteristics of NU-SNPs in the human genome. NU- SNP was defined as follows: (1) identical position yet different rsID, (2) rsID with multiple genomic position, (3) fail of experimental validation by 1000 genome projects, (4) SNPs on paralog region. To identify influences of NU-SNPs on genomic studies, we analyzed the SNPs of commercial chips, imputation panel, repeats, and previously reported GWAS results.
Results: We identified that over 40% of NU-SNPs were distributed on repeats and almost all suspected SNPs located at segmental duplications. Moreover, NU-SNPs were also observed from commercial chips, imputation reference panels, and GWAS catalogue. In conclusion, we recommend careful interpretation and inspection of non-unique and suspected SNPs among analysis results prior to further experiment or replication study.



I. 들어가는 말


  우리 몸에 존재하는 30억 개의 유전자 서열에서 특정위치의 단일염기는 사람마다 변화를 보일 수 있다. 이러한 변이는 유전체 염기서열에서 약 100-300개 당 하나씩 다르다. 단일염기다형성(Single nucleotide polymorphism, SNP)이라고 불리는 이러한 유전정보의 차이들은 외모나 질병에 대한 민감성 등의 사람 간 표현형의 차이로 이어진다. SNP는 인간 유전변이(Genetic variation) 중 가장 수가 많고 단순한 형태의 유전변이이며[1], 특히 질병과 관련된 유전변이를 발굴하는 전장유전체 연관분석 연구 등에서 특정 유전체 지역을 대표하는 유일한 지표(Unique marker, 이하 서열마커)로 활용되고 있다[2, 3]. 실험을 통해 유전자 서열에 존재하는 새로운 SNP을 발굴한 연구자는 미국국립생물정보센터(National Center for Biotechnology Information, NCBI)에 서열정보를 제공하고, NCBI에서는 제공된 SNP에 고유한 참조 SNP 클러스터 식별자(Reference SNP cluster ID, rsID)를 부여하고 있다.

그러나 최근 연구 결과에서 rsID를 부여받은 SNP 정보 중 일부는 유전체의 여러 지역에 존재하거나, 동일한 위치에 존재하는 SNP에 여러개의 rsID가 부여되는 등 고유 식별자로서의 유일성을 갖지 못하고 있어, 질병 연관 유전변이 연구를 위한 서열마커로서 적합하지 않다는 것이 보고되었다[5]. 특히 여러 지역에 동시에 존재하는 SNP가 전체 정보의 4.2-11.9%를 차지하고 있다고 보고하고 있다[5]. 이러한 SNP 정보를 이용한 질병연관성 연구에는 위양성 결과(False positive)가 포함될 가능성이 있다. 예를 들어, 전장유전체 연관분석을 통해 질병에 연관된 SNP를 발굴하였으나 실제로는 그 SNP가 유전체의 여러 지역에 존재한다면 이 연구를 통해 발굴된 결과는 잘못된 표식(mark)에 의해 발생된 오류가 된다.
이 글에서는 질병 연관 표식으로서 활용 시에 문제가 있는 SNP(Non-unique SNP, NU-SNP)를 분석한 결과와 현재 공개 데이터베이스를 바탕으로 많이 사용되고 있는 NU-SNP에 대해 소개하고자 한다.

II. 몸 말


NU-SNP는 아래와 같이 네 가지로 분류되었다. (1) 서로 다른 rsID를 가지고 있지만 동일한 위치정보를 갖는 경우(Non-unique SNPs(POS)), (2) 동일한 rsID를 가지고 있지만 서로 다른 위치정보를 갖는 경우(Non-unique SNPs(rsID)), (3) 1,000명의 시퀀싱 정보에서 발굴되었으나 검증실험이 실패한 경우(Suspected SNPs(1000G fail)), (4) 패럴로그(paralog) 유전자에 위치한 SNP(Suspected SNPs(Paralog)).

이 글에서는 산타크루즈 캘리포니아 대학(University of California, Santa Cruz, UCSC)와 NCBI에서 제공하는 SNP 데이터베이스를 대상으로 NU-SNP을 분석하였다. 두 곳에서 제공되는 데이터베이스에는 SNP 이외에 Indel 등 또 다른 형태의 유전변이를 포함하고 있기 때문에, 질병 연관성 연구에서 가장 많이 사용되는 SNP 정보만을 추출하였다. 추출된 SNP정보는 UCSC가 5,936만개이고 NCBI의 경우 5,323만개가 있었다. NU-SNP는 UCSC에서 제공하는 SNP 정보를 주로 이용하였으며 패럴로그와 1000G failed에 해당하는 NU-SNP은 NCBI 정보에서 추출하였다. UCSC와 NCBI에서 제공하는 SNP 정보를 분석한 결과 서로 다른 위치정보에 동일한 rsID가 부여된 290만개의 SNP와 동일한 위치정보에 서로 다른 rsID가 부여된 230만개의 SNP가 있는 것을 확인하였다. 또한, NCBI데이터에서 패럴로그에 위치한 5만 7천여 개 및 1,000명의 시퀀싱 정보에서 발굴되었으나 17만 4천여 개의 SNP는 검증에서 발굴되지 않았다(Table 1).

각 염색체 별로 각각 분류한 NU-SNP의 분포를 확인해보았다. 전체 염색체에서 총 11% 이상의 non-unique SNPs(RS)와 non-unique SNPs(POS)가 9번 염색체에 두드러지게 존재하는 것을 확인하였고, 염색체 9번은 인간유전체에서 가장 많은 이질염색질 블록(Heterochromatin block)을 가지고 있으며, 부분 중복을 포함하는 염색체 내부(Intra-)와 상호간(Inter-)의 중복 서열을 포함하고 있다[6]. 또한 13% 이상의 Suspected SNPs(Paralog)는 7번 염색체에 분포되어 있었다(Figure 1).

유전자 서열의 특정부분이 반복, 삭제되거나 복제되어 발생하는 유전변이를 구조변이(Structural variant)라고 하며, 여러 위치에서 발견되는 NU-SNP의 원인을 조사하기 위해 구조변이와의 관계를 조사하였다. 이를 위해 UCSC에서 반복서열(Repeat regions)과 부분복제(Segmental duplication) 정보를 추출하였다(Table 2). 서로 다른 rsID를 가지고 있지만 동일한 위치정보가 부여된 경우(Non-unique SNPs(POS))와 동일한 rsID가 부여됐지만 서로 다른 위치정보를 갖는 경우(Non-unique SNPs(rsID))인 L1 transposable element와 segmental duplication에 해당하는 구조변이 위에 존재하는 것으로 확인되었다(Figure 2). 또한 1,000명의 시퀀싱 정보에서 발굴되었으나 검증실험이 실패한 경우(Suspected SNPs(1000G fail))는 L1 transposable element와 Alu 반복서열 상에 있었다. 패럴로그(paralog)의 경우 90% 이상이 부분복제 구조변이 위에 존재하므로, NU-SNP들이 존재하는 주요한 이유 중 하나는 유전체에 존재하는 반복 및 복제 서열들 때문임을 확인할 수 있었다.

현재 널리 사용되고 있는 공개 정보에 NU-SNP이 얼마나 포함되어 있는지 확인하기 위해 imputation 기법에 사용되는 참조 정보와, 현재까지 발굴된 질병 연관 유전변이 데이터베이스인 GWAScatalog에서 정보를 추출하였다. 또한 유전변이 연구에서 주로 사용되는 상용 SNP 칩에 NU-SNP가 존재하는지도 분석하였다. 그 결과 imputation을 위한 참조 정보와 상용 SNP칩에 NU-SNP가 존재하는 것을 확인하였고(Table 3). GWASCatalog에서도 약 300개의 NU-SNP가 존재하는 것을 확인하였다.

III. 맺음말

SNP는 질병 유전체 연구에서 서열표식(mark)으로서 매우 중요하게 사용되고 있으나 일부 SNP의 경우, 서열표식으로 적합지 못하여 연구에 사용될 경우 위양성 결과를 도출할 가능성이 있음을 확인하였다. 이러한 서열표식에 부적합한 SNP들에 대한 분석 결과 및 그 특성에 대해 살펴보았다.

NU-SNP은 대부분 유전체에 존재하는 반복서열 및 부분복제 등 구조변이 위에 존재하고 있었으며, SNP을 이용하는 질환 연관성 분석에서는 위양성 결과를 방지하기 위해 이러한 분석 결과를 고려해야 한다. 또한 NU-SNP은 현재 유전체 연구에 널리 사용되고 있는 상용칩과 공개 데이터베이스에서도 존재하고 있으므로, 연구 결과의 해석 및 추가 연구를 진행하기 이전에 NU-SNP의 확인을 통해 연구에서 발생할 수 있는 오류를 최소화 할 수 있다. 본 글에 소개된 NU-SNP 연구 결과와 NU-SNP 정보는 논문을 통해 발표할 예정이다.

IV. 참고문헌


1. Rothe J, Nagy M. 2012. Strategies for excluding false Y-chromosomal SNP entries from human genome databases. Electrophoresis 33 (9-10):1488-1491. doi:10.1002/elps.201100685
2. Altshuler DM, Gibbs RA, Peltonen L, Dermitzakis E, Schaffner SF, Yu F, Bonnen PE, de Bakker PI, Deloukas P, Gabriel SB, Gwilliam R, Hunt S, Inouye M, Jia X, Palotie A, Parkin M, Whittaker P, Chang K, Hawes A, Lewis LR, Ren Y, Wheeler D, Muzny DM, Barnes C, Darvishi K, Hurles M, Korn JM, Kristiansson K, Lee C, McCarrol SA, Nemesh J, Keinan A, Montgomery SB, Pollack S, Price AL, Soranzo N, Gonzaga-Jauregui C, Anttila V, Brodeur W, Daly MJ, Leslie S, McVean G, Moutsianas L, Nguyen H, Zhang Q, Ghori MJ, McGinnis R, McLaren W, Takeuchi F, Grossman SR, Shlyakhter I, Hostetter EB, Sabeti PC, Adebamowo CA, Foster MW, Gordon DR, Licinio J, Manca MC, Marshall PA, Matsuda I, Ngare D, Wang VO, Reddy D, Rotimi CN, Royal CD, Sharp RR, Zeng C, Brooks LD, McEwen JE. 2010. Integrating common and rare genetic variation in diverse human populations. Nature 467 (7311):52-58. doi:10.1038/nature09298
3. Conrad DF, Pinto D, Redon R, Feuk L, Gokcumen O, Zhang Y, Aerts J, Andrews TD, Barnes C, Campbell P, et al. 2010. Origins and functional impact of copy number variation in the human genome. Nature. 464(7289):704-712.
4. Doron S, Shweiki D. 2011. SNP uniqueness problem: a proof-of-principle in HapMap SNPs. Human mutation 32 (4):355-357. doi:10.1002/humu.21429
5. Fadista J, Bendixen C. 2012. Genomic position mapping discrepancies of commercial SNP chips. PloS one 7 (2):e31025. doi:10.1371/journal.pone.0031025
6. Humphray SJ, Oliver K, Hunt AR, Plumb RW, Loveland JE, Howe KL, Andrews TD, Searle S, Hunt SE, Scott CE, Jones MC, Ainscough R, Almeida JP, Ambrose KD, Ashwell RI, Babbage AK, Babbage S, Bagguley CL, Bailey J, Banerjee R, Barker DJ, Barlow KF, Bates K, Beasley H, Beasley O, Bird CP, Bray-Allen S, Brown AJ, Brown JY, Burford D, Burrill W, Burton J, Carder C, Carter NP, Chapman JC, Chen Y, Clarke G, Clark SY, Clee CM, Clegg S, Collier RE, Corby N, Crosier M, Cummings AT, Davies J, Dhami P, Dunn M, Dutta I, Dyer LW, Earthrowl ME, Faulkner L, Fleming CJ, Frankish A, Frankland JA, French L, Fricker DG, Garner P, Garnett J, Ghori J, Gilbert JG, Glison C, Grafham DV, Gribble S, Griffiths C, Griffiths-Jones S, Grocock R, Guy J, Hall RE, Hammond S, Harley JL, Harrison ES, Hart EA, Heath PD, Henderson CD, Hopkins BL, Howard PJ, Howden PJ, Huckle E, Johnson C, Johnson D, Joy AA, Kay M, Keenan S, Kershaw JK, Kimberley AM, King A, Knights A, Laird GK, Langford C, Lawlor S, Leongamornlert DA, Leversha M, Lloyd C, Lloyd DM, Lovell J, Martin S, Mashreghi-Mohammadi M, Matthews L, McLaren S, McLay KE, McMurray A, Milne S, Nickerson T, Nisbett J, Nordsiek G, Pearce AV, Peck AI, Porter KM, Pandian R, Pelan S, Phillimore B, Povey S, Ramsey Y, Rand V, Scharfe M, Sehra HK, Shownkeen R, Sims SK, Skuce CD, Smith M, Steward CA, Swarbreck D, Sycamore N, Tester J, Thorpe A, Tracey A, Tromans A, Thomas DW, Wall M, Wallis JM, West AP, Whitehead SL, Willey DL, Williams SA, Wilming L, Wray PW, Young L, Ashurst JL, Coulson A, Blocker H, Durbin R, Sulston JE, Hubbard T, Jackson MJ, Bentley DR, Beck S, Rogers J, Dunham I. 2004. DNA sequence and analysis of human chromosome 9. Nature 429 (6990):369-374. doi:10.1038/nature02465
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.