본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

‘한국인 유전체역학조사사업’ 수집자료 통합‧정제 지침서 공개
  • 작성일2014-03-07
  • 최종수정일2014-03-07
  • 담당부서감염병감시과
  • 연락처043-719-7166

‘한국인 유전체역학조사사업’ 수집자료 통합‧정제 지침서 공개
Open sharing of KoGES data integration and quality control guidelines


질병관리본부 유전체센터 유전체역학과
송대섭, 김연정
Ⅰ. 들어가는 말

  설문, 검진 등의 역학자료를 활용하여 타당도와 신뢰도 높은 연구결과나 통계자료를 얻기 위해서는 연구계획 단계에서부터 역학조사 진행단계, 조사 완료를 거쳐 수집자료의 활용도 제고를 위한 가공자료 생산 등 모든 단계에서 체계적인 품질관리 절차가 수행되어야 한다.
일반적으로 데이터 품질관리는 수집데이터가 결측치가 없는가 하는 완전성은 물론, 유효 범위나 코딩 규칙과 일치하는가 등에 대한 유효성을 검증하고, 연관된 조사 값 간 일관성이 있는지 등을 검증하여 궁극적으로는 자료 사용자 관점에서 자료 유용성과 적시성이 만족될 수 있도록 품질 향상을 도모하는 과정이다.

유전체역학과에서 수행하고 있는 코호트 사업인 한국인유전체역학조사사업(Korean genome and epidemiology Study, KoGES)은 7개의 세부사업으로 이루어져 있고, 연간 2만 여 참여자를 대상으로 전국 30여개 기관이 참여하는 대규모 사업이다. 대상자에 대한 1:1 면접을 통해 설문, 검진조사를 수행하고, 혈액 등의 시료를 수집하는 조사 수행 체계를 통해 인구학적 정보, 질병력, 생활습관, 신체계측, 임상검사 등 500-2,500여 개의 변수로 구성된 데이터가 수집되어 전산시스템(‘코호트역학정보시스템’)을 통해 관리되고 있다.
이러한 대규모 자료의 품질관리를 위해 사업 전 수집자료 코딩설계를 바탕으로 한 입력프로그램을 개발하여 코호트역학정보시스템을 통해 일차적으로 조사자료 품질관리를 도모하고 있다. 또한 설문과 검진을 진행하는 조사원에 대한 집합교육과 사이버 표준화 교육을 지속적으로 수행함으로써 조사 전과 진행단계에서의 품질관리에 역점을 두고 있다.

'KoGES 수집자료 통합‧정제 지침서'는 수집이 완료된 역학데이터에 대한 정제를 위해 자료 통합과 자료 검수, 이를 통해 검출된 오류의 수정 등에 대한 세부적인 원칙을 제시하기 위한 목적으로 개발되었으며, 본 보고서에서는 지침서의 일반공개를 위해 그에 대한 내용을 간략히 소개하고자 한다.

Ⅱ. 몸 말

  한국인유전체역학조사사업(이하 ‘KoGES)은 40-69세 남, 녀 일반 인구 집단을 기반조사 대상자로 하여 사업 참여와 시료 수집에 대한 동의를 구득한 후, 건강이나 질병력, 생활습관(운동, 식습관) 관련한 다양한 설문조사와 신체계측, 검진을 통해 자료를 수집하고, 혈액과 뇨를 채취하여 임상검사 자료와 인체자원(혈청, 혈장, DNA)을 확보하고, 2-4년 주기로 반복 추적하는 코호트 사업이다. 지역사회 기반 코호트 (안산, 안성), 도시 기반 코호트, 농촌 기반 코호트, 쌍둥이 및 가족 코호트, 국내이주자 코호트와 국제이민자 코호트 등 연구가설에 따라 7개의 세부 코호트 사업으로 구성되어 설문, 검진, 임상검사 공통 항목과 각 코호트 별 특이 항목이 함께 조사되어 전산 자료화로 관리되고 있다.

KoGES 자료 정제의 기본원칙은 조사지 원본을 기준으로 하고, 조사 연도나 세부사업 간 변수명이나 코딩원칙을 통합하여 자료의 활용도를 높이는 것에 근간을 두었다. 또한 모든 조사변수를 범주형, 연속형, 서술형 등 변수 형태별로 구분한 후 각각 개별 변수 수준에서 가능한 응답 범위 기준을 설정, 검토하는 것을 원칙으로 하였다. 이를 바탕으로 ‘KoGES 수집자료 통합‧정제 지침서'의 구성을 (1) 수집자료의 통합, (2) 원본 대조, (3) 단일변수 정제, (4) 연관변수 정제, (5) 통계적 품질관리로 나누어 각 단계의 목적과 수행절차 및 세부적인 방법을 기술하였다. 특히 정제실무 부분에서는 설문 문항 유형에 따른 예시를 자세히 수록하여 KoGES 수집자료 통합‧정제에 필요한 실무처리 내용과 표준화된 통합‧정제과정을 소개하였다.

KoGES 사업은 2001년 지역사회 기반 코호트 (안산, 안성)을 시작으로, 7개 코호트 사업으로 다변화되면서, 조사 연도별 조사내용이나 설문지, 코딩원칙이 약간 변경, 진행되어왔다. 따라서 유사한 변수명이나 상이한 코딩 원칙을 일정한 규칙 하에 표준화하거나, 혹은 유사한 변수에 대한 변수 설명을 통합 코드북에 표기하여 사용자의 이해를 돕고자 하였다(Table 1). 즉 정제에 앞서 수집 자료의 통합을 위해 KoGES 사업의 조사 연도 및 설문지 유형을 기준으로 ‘단위데이터’를 구분하였다. 단위데이터 간 설문 문항의 내용과 응답값을 비교하여 데이터의 통합 가능 여부를 검토하고 변수 mapping을 통해 ‘통합 코드북’을 작성하였다(Table 1). 개별 단위데이터를 구분하기 위하여 변수명에 구분자(‘헤더Header’)를 생성하여, 통합 이후에도 개별 자료의 정제 원칙을 구분하는 등의 관리가 가능하도록 하였다. 

자료통합 단계를 거친 후 세부정제 절차를 효율적이고 체계적으로 설명하기 위해 본 지침서에서는 각 정제단위를 모듈화 하고 일련의 순서에 의해 정제를 진행할 수 있도록 표준정제과정을 제시하였다. 즉, 조사지 원본대조 단계, 단일변수 정제단계, 연관변수 정제단계 및 통계적 품질관리 단계 등 크게 4단계로 나누어서 순차적으로 수행할 수 있도록 하였다.
먼저, 조사지 원본대조단계는 자료의 본격적인 정제를 수행하기에 앞서 조사 연도 및 조사기관 별로 일부 자료 (3% 이내)를 임의로 추출하여 전산시스템에 입력된 자료와 조사지 원본과의 대조작업을 수행하는 단계이다. 이 단계에서는 조사과정 또는 조사 자료의 입력과정에서 발생한 문제점 등을 사전에 분석하여 오류의 원인을 파악하고 수정 여부를 결정하여 이후 진행될 정제 기본 방향과 오류 유형별 수정 방향을 위한 의사결정 자료를 구축하는 과정이다.

그 다음 단계인 단일변수 정제 단계는 조사된 각각의 항목에 대하여 개별적으로 정제를 수행하는 단계이다. KoGES 조사항목의 주요 테이블 별로 변수 유형에 따라 검토방법을 다르게 적용하는 것을 원칙으로 하였다. 즉, 범주형, 연속형, 서술형 등 변수 유형에 따라 크게 3가지로 구분하여 ‘유효값 (조사지 원본에 기입된 값)’ 이나 ‘유효범위’를 설정하고, 그 기준에서 벗어 날 경우 오류로 판정하여 원본 대조 등 검토를 진행하였다. 범주형 변수에 대한 오류 유형을 예를 들면, 여성력 설문 문항 중 아이출산 여부에 대한 유효값은 ‘예’ 또는 ‘아니오’에 따라 ‘0’ 또는 ‘1’이 유효값이 되며, 입력된 값이 ‘2’인 경우 원본을 확인하여 수정 여부를 결정하였다. 나이나 혈압 측정값과 같은 연속형 변수는 입력값의 분포 등을 감안하여 각각 별도의 허용기준을 적용하였다. 예를 들면 음주력의 경우, 소주 1회 음주량으로 16잔 이상을 마시는 것으로 응답한 경우 등 이상치 기준을 정하여 원본을 확인하고 정제 방향을 결정하였다. 특정 기준이 없을경우, 입력값 분포상 95%이내의 값을 유효범위로 설정하고 검토를 진행한다. 서술형 조사항목에는 과거력과 가족력 테이블에서 악성종양의 종류를 묻는 설문 문항 중 기타에 서술형으로 대답한 암 진단명, 직업력 테이블의 직업명과 같이 기타에 주관식으로 답한 항목 등이 해당된다. 이러한 문항의 응답값은 매우 다양하게 서술되어 있어 입력된 원본값을 기준으로 하여 표준화를 하거나 범주화를 통해 재분류하였다(Table 2). 예를 들면 서술형으로 조사된 직업력의 경우 통계청 직업분류 코드를 기준으로 재분류함으로써 통합 활용이 용이하도록 범주화하였다.

연관변수 정제 단계는 두 개 이상의 조사항목에 대한 응답값이 서로 연관되어 있을 경우, 상호 간의 논리 관계를 검토하는 단계이다. 논리 관계에 포함된 조사항목의 수에 따라 단순비교, 다중비교 등으로 구분하였다. 조사항목 간 논리관계 검토는 상‧하위 관계, 특정 산식을 이용한 관계, 수치관계 검토 등이 있다. 상‧하위 관계 검토는 질병의 진단여부를 묻는 상위 질문과, 상위 질문의 응답 범주에 따라 응답할 수 있는 진단나이, 치료경과, 치료방법 등의 하위질문과의 응답관계에 대해 검토하였다. 특정 산식을 이용한 관계에 대한 검토는 아래와 같이 조사항목 간에 성립되는 수식을 이용하여 검토를 진행하였다. 예를 들면 여성력 테이블에서 출산 자녀수를 묻는 문항과 첫아이와 막내아이를 묻는 문항에 대한 각각의 응답값은 연관되어 있어 아래의 수식을 적용하여 논리오류를 판단하는 기준으로 하였다. 즉 첫아이와 막내아이 출산나이를 감안했을 때, 응답한 자녀수가 너무 많은 경우에는 오류로 판단하여 원본 확인 후 수정 등의 의사 결정을 진행하였다(임신기간을 10개월로 감안).

수치 관계에 대한 검토는 연속형 조사항목 간의 크기관계를 규정하고 이 관계에서 벗어나는 값들에 대해 검토를 진행하였다. 예를 들어 여성력 테이블의 일부 항목에는 다음과 같은 수치의 크기 관계를 로직으로 오류를 검출하게 된다. 아래 원본 대조의 예에서 보는 것처럼 첫 아이 출산나이(13세)나 첫 임신나이(23세)가 초경나이(17세)에 비해 적은 경우에는 무응답 처리 등의 오류 수정 방향을 결정하게 되는 것이다(Figure 1).

위와 같은 기본정제 후 통계적 품질관리 단계를 수행하게 된다. 즉 조사 연도나 설문지 유형이 다른 단위데이터 별로 입력값의 분포 비교, 회귀분석 등의 통계적 방법을 이용하여 정제를 수행하는 단계이다. 이 단계는 앞에서 진행한 단일 조사항목 또는 연관 조사항목 정제단계에서 발견하지 못한 오류에 대해 검토를 진행한다. 예를 들면 아래 그림에서와 같이 단위데이터 별로 혈액검사 항목의 분포 비교를 통해 단위데이터 중 ‘2005년도 Site C'의 평균값 등 통계치가 다른 단위데이터(’Site A' 또는 ‘Site B’)에 상대적으로 매우 상이하여(Figure 2 right panel), 해당 변수에 대한 원본 확인 결과, 다른 검사 항목값을 해당변수에 입력한 경우로 확인되어 재입력을 수행하였다.

본 지침서의 부록에서는 테이블별 적용 로직을 검출 프로그램 스크립트와 함께 포함하여 활용에 참고할 수 있도록 하였다.

Ⅲ. 맺는 말

  최근 보건의료 연구 분야에서 대규모 역학자료, 유전체 정보가 중요 연구 인프라로서 인식 되고 있는 추세에 따라, 대규모 코호트 사업을 수행하고 있는 유전체역학과에서는 고품질의 데이터를 수요자에게 적시적으로 제공한다는 목표 하에 품질관리에 힘써왔다. 특히 KoGES 사업의 주요 목표 질환인 제2형 당뇨, 고혈압, 비만, 대사증후군과 같이 개인의 유전, 환경적 요인이 복합적으로 작용하여 발생하는 만성질환의 위험요인을 규명하기 위한 유전체역학 연구에서 KoGES 역학자료의 활용이 높아지고 있으며, 수집 자료에 신속한 활용을 위한 표준화와 질 관리 전략 개발에 지속적으로 주력하고 있다.

기본적으로 조사 단계부터 논리적 오류가 없는 정확한 데이터를 수집하는 것이 고품질의 역학자료를 확보하는데 가장 중요하다. 그러나 제한된 조사시간 내에 대상자로부터 오류가 전혀 없는 응답을 이끌어 내는 것은 실제적으로 불가능하며, 따라서 사후 품질관리에 많은 시간과 노력이 투자되는 것이 불가피하다.

조사된 설문을 전산데이터로 입력하는 과정에서도 오입력으로 인한 오류가 발생할 수 있으며, KoGES 코호트역학정보시스템은 이를 방지하기 위하여 조사자료 입력 시, 이중입력원칙(double entry)을 시행하고 있으며, 일부 코호트에서는 CAPI (computer-assisted personal interviewing) 조사 시스템을 도입하여 수집 시 내부 로직에 의한 답변 내용 오류 점검 기능을 강화하였다. 또한 코호트 조사 진행 중 주기적 자료 모니터링 절차를 도입하여 조사 중 발생하는 오류나 미상/무응답률이 높은 변수에 대한 원인을 분석, 수정하도록 하고 있다. 그러나 이러한 노력에도 불구하고 남아있는 오류를 확인하고 수정하는 자료 정제 과정이 필요하며, 본 지침서의 적극적 활용을 통해 수집 자료에 대한 사후 질 관리 뿐 아니라, 코호트 조사 진행 단계에서의 자료 질 관리를 보다 강화하고, 표준화를 유도하여, 궁극적으로 자료의 수집부터 활용까지의 정제 기간을 1년 내로 대폭 단축할 계획이다.

본 정제 지침은 KoGES 자료에 초점을 두고 정리가 되었으나, KoGES 공통 설문이나 식품섭취 빈도조사 도구가 국내 연구자들에게 공개, 활용되고 있는 점을 감안할 때 유사한 설문, 검진, 임상검사값을 수집하는 역학조사 자료에 응용됨으로써, 대외적 활용도 또한 높을 것으로 기대하고 있다. 인쇄 책자와 전자 파일 형태의 지침서는 KoGES 홈페이지를 통해 일반 공개를 홍보하고, 배포할 계획이다.
이번 지침은 기반조사 자료의 통합‧정제를 위주로 작성되었으며, 향후 코호트 반복 추적조사 자료의 시계열적 처리, 추적자료의 무응답값에 대한 통계적 처리(Imputation) 등 추적자료 정제 원칙을 보강할 계획이며, 이러한 과정을 통해 생산된 코호트 자료를 기반으로 한국인에 맞는 만성질환 관리 전략 수립을 위한 과학적 근거가 되는 많은 연구 결과가 도출되기를 기대한다.

IV. 참고문헌

1. 주간건강과질병. 2009. 한국인유전체역학조사사업 (KoGES) 코호트 역학데이터 품질관리지침개발. 2(52).
2. 한국데이터베이스진흥원. 2011. 데이터 품질 가이드라인.


본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP