질병관리청

contents area

주간건강과질병

SNS공유 열기

SNS공유닫기

프린트하기

detail content area

KoGES 교육용 데이터 소개

작성일2015-06-25
최종수정일2024-08-04
담당부서유전체역학과
연락처043-719-7166

KoGES 교육용 데이터 소개
Introduce of the KoGES Teaching-Dataset

질병관리본부 국립보건연구원 유전체센터 유전체역학과

김소리울, 이소현, 김연정, 이은규

Abstract

Background: The Korean genome and epidemiology study (KoGES) was designed to investigate the genetic and environmental factors as determinants of the incidence of chronic disease since 2001. The structure of the KoGES database is complicated due to some reasons. First, the study included many participants of various research studies. Second, the study was designed according to prospective cohort studies including follow-up data. If research data were used by researchers who do not adequately understand the data, then serious errors might occur when interpreting statistical results. Therefore, we developed the KoGES teaching-dataset and a guidebook to help researchers deal correctly with cohort data.
Current status: For the KoGES teaching-dataset, 10,000 participants were sampled from the KoGES integrated data (including the Ansan and Ansung studies, HEXA study, and CAVAS study) by proportional stratified random sampling (1:7:2). The KoGES teaching-dataset includes 82 variables except for personal identification number. From a total of 10,000 participants, the proportion of men was about 63.8%, similar to the proportion of men and women in Ansan and Ansung studies. The age factor was the highest in CAVAS study among three cohorts (58.3±9.2 years), but it was the lowest in the HEXA study (52.7±8.4 years).
Prospective future: The KoGES teaching-dataset and guidebook can be downloaded from the KCDC website (http://www.kdca.go.kr) for free. We are also planning to develop and offer the KoGES teaching-dataset with longitudinal cohort data. It is expected to produce more evidence-based research results through the KoGES teaching-dataset.

Ⅰ. 들어가는 말

한국인유전체역학조사사업(Korean Genome and Epidemiology Study, KoGES)은 한국인에서 호발하는 만성질환의 유전․환경적인 요인과 그에 따른 상호작용 등의 연관성을 규명하고자 질병관리본부 국립보건연구원(유전체센터 유전체역학과)에서 2001년부터 수행되어 온 대규모 전향적 코호트 연구사업이다. KoGES는 일반인구 및 특수인구 집단을 대상으로 구축된 6개의 세부 코호트 연구(지역사회기반코호트(안산, 안성; Ansan and Ansung study), 도시기반코호트(HEXA, Health examines study), 농촌기반코호트(Cardiovascular disease association study, CAVAS), 쌍둥이 및 가족코호트(twin and family study), 국내이주자코호트(immigrant study)와 국제이민자코호트(emigrant study)를 포함하며, 2014년 말 기준 약 245,000명 규모의 기반 조사자를 대상으로 건강 및 생활습관 관련 설문조사와 신체계측, 임상검사를 통한 혈액, 소변 검체 등의 생체 시료를 수집하였다[1].

KoGES 구축 자료는 기존에 활용되고 있던 국민건강영양조사, 지역사회건강조사, 청소년온라인행태조사 등의 국가 주도 수집 자료에 비하여 조사 대상자가 최대 10배에 달하는 규모이며, 그동안 단면적 연구로 수행되었던 자료수집 형태와는 다르게 본 자료는 추적조사를 포함한 전향적 코호트 연구로 구성이 다소 복잡하다[2]. 또한 자료에 대한 충분한 이해가 되지 않은 이용자가 자료를 사용하게 되는 경우 자료의 통계분석 및 결과해석에서 심각한 오류가 발생할 수 있음이 기존의 연구 보고서에서 언급된 바 있어 자료 이용을 돕기 위한 자료 활용 컨텐츠 개발의 필요성이 제안되었다[3].

국외의 대규모 코호트 연구에서는 대표적인 자료 활용 방안으로 교육용 데이터(teaching dataset) 시스템을 구축하여 운영하고 있다. 한 예로 미국 NIH의 BioLINCC에서는 Framingham Heart Study와 Digitalis Investigation Group의 자료를 활용할 수 있도록 교육용 자료를 제공하고 있는데, 홈페이지를 통해 제공하는 세부 가이드북에는 데이터의 특성과 범위, 수집변수의 소개, 질병 outcome (event) 설명, 데이터 컨텐츠 확인, 데이터를 활용한 주요 기본 결과가 포함되어 있으며 수집된 자료의 일부가 SAS, csv, excel, SPSS, STATA 등 5가지 형식으로 제공되어 이용자가 손쉽게 접근할 수 있다. 또 다른 사례로 영국에서는 정부가 주도하여 대규모 2차 조사자료, 국제적․상업적인 공공 마이크로데이터, 영국 내 사례연구와 컨센서스데이터 자료를 활용할 수 있도록 6천개 이상의 데이터가 포함된 데이터 아카이브를 구축하였고, 2013년에 Health Survey for England 2011의 데이터를 제공하기 위한 총괄적 이용지침서를 제작하였으며, 교육용 자료를 통해 학문적 교육, 연구 수행에 필요한 표준화 교육, 분석 및 논문 작성에 필요한 표준화 교육 프로그램을 개발하도록 하고 있다[4].

KoGES에서는 KoGES 자료를 이용하고자 하는 연구자들이 올바르게 대규모 자료를 활용할 수 있도록 KoGES 교육용 데이터와 교육용 데이터 이용자 안내서를 개발하였으며, 이 글을 통해 간략하게 소개하고자 한다.

Ⅱ. 몸 말

KoGES 교육용 데이터 생성 방법
KoGES 자료는 일반사항, 신체활동, 음주 및 흡연 등 생활습관, 질병 치료현황, 과거력, 약물력, 가족력 등이 포함된 설문항목과 신체계측, 혈압 및 맥박 측정, 심전도, 흉부 x-ray, 체성분 분석, 폐기능 검사, 혈액 및 소변검사 항목으로 구성되어 있다. 주요 코호트별 설문, 신체계측, 임상검사 조사 항목은 Table 1과 같다. 코호트별 조사항목은 다소 상이한 부분이 있으므로 분석 및 연구 시 연구자의 주의가 필요하고, 특히 활용하려는 데이터의 연구모형이 일반인구집단 연구모형(population-based studies)인지 유전환경 연구모형(gene-environment model studies)인지에 따라 특성에 맞는 자료 활용 접근방법이 필요하다.

코호트별 공개자료는 「한국인유전체역학조사사업 코호트 역학데이터 품질관리지침(2014)」에 따라 동일한 통합 및 정제 단계를 거쳐 생성된다[5]. KoGES 교육용 데이터는 KoGES 코호트 중 일반인구집단 연구모형(지역사회시반코호트 (안산, 안성), 도시기반코호트, 농촌기반코호트)을 통합한 자료(205,949명, 628개 변수)로 가공하였으며, 통합자료의 코호트별 대상자는 지역사회기반코호트 3기 7,515명, 도시기반코호트 170,084명, 농촌기반코호트 28,350명으로 구성되어 있다. 통합 자료의 생성을 위해 각 코호트 참여 연구진과 각 분야의 외부 전문가를 포함한「KoGES 자료 질 관리위원회」를 구성하여 주요 Abbreviation: HEXA= Health examinees study, CAVAS= Cardiovascular disease association study
변수 선정 및 각 자료의 수집/입력/정제 과정을 검토하였고, 선정된 변수들의 통합방안, 결측치 및 이상치 처리방안 등을 도출하였다. KoGES 분양자료와 마찬가지로 교육용 데이터에는 변수의 코드가 ‘미상/무응답(결측, missing, 99999)’, ‘해당없음(77777)’, ‘조사안함(66666)’으로 코딩되어 있으므로 각 경우에 따라 변수를 조합하여 사용해야 하며, 결측치 처리 및 의미 해석 시 유의해야 한다.

교육용 데이터의 기반이 되는 통합자료는 도시기반 및 농촌기반코호트의 기반자료와 설문조사 문항의 유사성을 고려하여 지역사회기반코호트 3기 자료(2005-2006)를 기준으로 생성하였으며[6], 세 코호트 자료를 통합하는 과정에서 표준 정제과정 외에 과거력, 가족력과 같은 변수에 대해서 추가 정제를 수행하였다.

첫째, 지역사회기반코호트에서 과거력과 같이 기반조사 이후 지난 2년간의 발생여부를 묻는 추적 설문에 대해 누적변수를 생성하였다. 즉 기반조사(2001-2002)부터 2차 추적조사(2005-2006) 사이에 한번이라도 진단받은 경우는 ‘예’로 생성하였고, 진단나이는 ‘최초 진단받은 나이’로 생성하였다. 둘째, 가족력의 경우 응답자에 따라 가변적으로 조사할 수 있도록 설문지가 설계되어 조사되었으므로 고정적인 형식으로 전환하여 생성하였으며, ‘본인과의 관계’변수의 범주가 코호트별로 서로 다르게 조사되어 ‘1=부, 2=모, 3=남자형제, 4=여자형제, 5=아들, 6=딸’을 ‘1=부, 2=모, 3=형제, 4=자녀’로 통합 하였다(Figure 1). 셋째, 임상검사 항목의 경우 검사항목별 유효범위를 설정하여 범위를 벗어나는 값에 대해 결측값으로 처리하였다. 넷째, 교육용 데이터 생성을 위해 선정된 변수 중 상식적인 범위를 넘어서는 극단값을 포함하는 일부 변수에 대해서는 이상치를 제거하였다. 즉, 영양소 변수는 총 에너지 섭취량이 남자의 경우 800-4,200kcal 내의 범위에, 여자의 경우 500-3,500kcal 내의 범위에 있는 대상자들을 포함하였고, 일부 흡연, 질환 과거력 변수들은 관측치에서 평균값 ± (3×표준편차)의 범위에 있는 값들을 대상으로 데이터를 구성하였다. 또한 암의 과거력 변수(T_CA, T_CAAG, T_CACU), 가족력 변수(T_FMFCA1, T_FMFCA2, T_FMFCA3, T_FMFCA4)의 경우 폐암, 위암, 간암, 대장암, 췌장암, 자궁암, 유방암, 갑상선암, 전립선암, 방광암을 통합하여 새로 생성하였다.

KoGES 교육용 데이터셋은 위와 같은 과정을 거쳐 생성된 KoGES 통합자료에 코호트별 비례 층화 샘플링(Sampling by proportionate stratification) 기법을 적용하여 10,000명을 추출하였으며, 아이디를 제외한 총 82개 변수를 포함하였다. 단순 무작위 표본 추출 시 도시기반코호트에 비해 지역사회기반코호트와 농촌기반코호트는 상대적으로 대상자 수가 적은 것을 고려하여 이 두 코호트에 대해 과대표집(over-sampling)을 적용하여 각각 1(지역사회기반코호트): 7(도시기반코호트): 2(농촌기반코호트)의 비율로 표본을 추출하였다[7]. 변수는 연속형 변수 41개와 CA 변수 41개로 구성되어 있으며 각 항목별로 구분하여 보면, 일반사항 변수 6개, 신체계측 변수 7개, 신체활동 변수 1개, 흡연력 변수 7개, 음주력 변수 7개, 여성력 변수 10개, 과거력 변수 12개, 가족력 변수 12개, 식습관 변수 4개, 임상검사 변수 9개, 영양소 변수 7개로 구성되어 있다(Table 2).

교육용 데이터 주요 변수의 일반적 특성
KoGES 교육용 데이터에 포함된 전체 10,000명의 일반적 특성을 살펴보았을 때 여자는 63.8%로 남자에 비해 많았으나, 지역사회코호트의 경우 남녀의 비율이 거의 비슷하였다. 세 코호트 중에서는 농촌기반코호트의 연령이 평균 58.3세로 가장 높았으며, 도시기반코호트의 연령은 평균 52.7세로 상대적으로 낮은 분포를 보였다. 학력은 지역사회기반 및 도시기반코호트는 ‘고등학교졸업(Graduate in high school)’이 가장 높은 비율(각각 27.8%, 36.5%)을 보였으나, 농촌기반코호트의 경우 ‘초등학교 졸업 또는 중학교 중퇴(Drop out of middle school)’군이 가장 높은 비율(33.5%)을 보였다. 결혼상태는 세 코호트 모두 기혼상태가 가장 높은 분포를 보였으며 전체적으로 87.3%의 비율을 나타내었다(Table 3).

Ⅲ. 맺는 말

일반적으로 자료에 대한 충분한 이해 없이 통계 분석을 수행하는 경우에는 결과해석 시 오류와 바이어스가 발생할 위험이 있으며, 전향적 코호트 연구인 KoGES 자료를 분석하여 연구를 수행할 경우 방대한 자료의 양과 그 복잡성 때문에 더욱 주의할 필요가 있다. 따라서 오랫동안 다양한 분야의 연구자들에게 적합한 교육 프로그램 개발에 대한 요구가 있어 왔고, 이를 해결하기 위해 KoGES 자료의 일부 변수들과 자료 구성을 미리 접해 볼 수 있도록 교육용 데이터를 개발하여 공개하였다. KoGES 교육용 데이터는 연구를 위한 KoGES의 분양 자료와는 달리 추가 승인 절차 없이 누구나 사용할 수 있으며, 관련 자료는 질병관리본부 홈페이지(http://www.kdca.go.kr) > 유전체 > 한국인유전체역학조사사업 > 교육용데이터에서 이용자가 직접 다운로드 받을 수 있다. 자료의 형태는 excel, SPSS, SAS, csv 네 가지 형식으로 제공된다.

KoGES 교육용 데이터를 활용할 때 유의할 부분은, 교육용 데이터가 KoGES 자료의 일부를 추출하여 생성한 자료이므로 분석결과를 KoGES 전체 또는 우리나라 국민의 대표 통계 수치로 해석하는 것은 적합하지 않다는 것이다. 교육용 데이터는 개인정보보호법에 근거하여 조사대상자 개인을 추정할 수 있는 자료를 제외하여 공개하고 있으며, 개인정보보호법을 준수하는 범위 내에서 교육용 목적으로 연구실, 학교, 기타 연구기관 등에서 활용하는 것을 원칙으로 하고 있다.

향후에는 KoGES 추적 자료를 활용한 교육용 프로그램을 추가로 개발하여 제공할 예정이다. KoGES 교육용 데이터를 통해 코호트 자료에 대한 신진 연구자들의 접근성을 높이고 자료가 올바르게 활용될 수 있는 계기를 만들어 다양한 근거 중심의 연구결과를 도출하는 성과를 낼 수 있게 되기를 기대한다.

Ⅵ. 참고문헌

1. 김소리울, 김연정, 이은규. 2015. 한국 성인의 10년간 당뇨병 발생과 위험요인. 주간건강과 질병. 8(14):304-310.
2. 박수경 등. 2010. 한국인 유전체역학조사사업 추적 및 성과전략개발 최종결과보고서. 질병관리본부.
3. 지선하 등. 2012. 한국인 유전체역학조사사업 코호트 단계별 심화연구과제 발굴 기획. 질병관리본부.
4. 홍윤철 등. 2014. 코호트포럼 운영 및 로드맵 기획 연구결과점검보고서. 질병관리본부.
5. 질병관리본부 국립보건연구원 유전체센터 유전체역학과. 2014. 한국인유전체역학조사사업 코호트 역학데이터 품질관리지침. 질병관리본부.
6. 김동현 등. 2013. 코호트 통합자료 질 관리 전략수립. 질병관리본부.
7. 질병관리본부 국립보건연구원 유전체센터 유전체역학과. 한국인유전체역학조사사업 교육용 데이터 이용자 안내서(1) KoGES 자료의 이해를 중심으로 -기반조사). 2014. 질병관리본부.

첨부파일

PHWR_8-26-2.pdf 다운로드
바로보기

본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.

간행물·통계

contents area

주간건강과질병

detail content area