아주의대 아주대학교병원 내분비대사내과학교실 하경화
임상연구(clinical research)는 임상진료에서 직면하는 다양한 궁금증에서 시작된다. 궁금증은 크게 세 가지로 분류할 수 있다. 첫째, 질병은 인구집단에서 어떻게 분포하는가? 둘째, 위험요인의 노출 또는 개인의 특성은 질병의 발생과 관련성이 있는가? 셋째, 새로운 치료법은 기존 치료법과 비교하여 유효성과 안전성이 유사한가?
연구자는 제기한 문제를 효율적으로 해결하기 위해 가설(hypothesis)을 수립한다. 그리고 가설을 검증하기 위해 적합한 자료원을 선택한다. 자료원은 연구자의 자료수집 개입에 따라 일차자료(특정 목적으로 연구자가 직접 수집한 자료)와 이차자료(다른 목적으로 수집된 자료 중 연구자가 연구에 활용할 수 있는 자료)로 구분할 수 있다. 당뇨병 연구에 활용할 수 있는 대표적인 이차자료에는 국민건강영양조사, 한국인유전체역학조사사업, 건강보험 청구자료(건강보험공단 및 건강보험심사평가원 청구자료), 의료기관의 전자의무기록자료 등이 있다.
선택한 자료원을 기반으로 연구 설계, 수행, 분석 과정을 거쳐 결과를 산출하게 되는데 각 과정에서 바이어스(bias, 내적타당도를 저해하는 체계적 오류)의 가능성을 고려해야 한다. 바이어스는 연구대상 선정 과정에서 발생하는 선택 바이어스(selection bias), 수행 과정에서 발생하는 정보 바이어스(information bias), 자료 분석 및 결과해석 과정에서 발생하는 교란 바이어스(confounding bias)로 분류될 수 있다.
연구 설계는 크게 관찰연구와 실험연구로 구분되며, 이차자료원을 활용한 연구는 관찰연구에 포함된다. 관찰연구는 기술역학연구와 분석역학연구로 분류되며, 분석역학연구에는 단면연구(cross-sectional study), 환자-대조군연구(case-control study), 코호트연구(cohort study)가 있다. 단면연구는 유병률을 파악하거나 질병의 위험요인을 확인하기 위해 수행되며, 대표적으로 국민건강영양조사를 활용할 수 있다. 환자-대조군연구는 질병의 위험요인을 확인하기 위해 질병을 가지고 있는 집단(환자군)과 질병을 가지고 있지 않은 집단(대조군)을 선정한 후 각 집단에서의 위험요인 노출 비율을 비교한다. 코호트연구는 위험요인에 노출된 집단과 노출되지 않은 집단을 선택한 후, 각 집단의 질병 발생률을 비교하기 위해 두 집단을 추적 조사한다. 코호트 설계는 시간적 흐름에 따라 전향적 코호트연구(prospective cohort study)와 후향적 코호트연구(retrospective cohort study)로 구분한다. 전향적 코호트연구는 코호트를 구축한 후 추적관찰을 통해 질병발생을 확인하는 연구로, 한국인유전체역학조사사업 지역사회 기반 코호트를 활용할 수 있다. 반면, 후향적 코호트연구는 연구자가 연구시작 시점에서 질병발생을 파악하고 위험요인 노출 여부는 과거 기록을 이용하는 것으로, 건강보험 청구자료, 의료기관의 전자의무기록자료를 활용할 수 있다. 혼합설계연구 중 환자-교차설계연구(case-crossover design)는 환경역학연구에 활용되는 방법 중 하나로, 사례군연구와 환자-대조군연구의 혼합으로 볼 수 있다. 일시적 환경적 노출이 당뇨병 환자의 응급실 방문에 미치는 영향을 파악하기 위해 사건 발생 시점의 환경적 노출수준과 사건 발생 이전, 이후 일정 시간대의 노출수준을 비교한다. 약물역학연구에서 이차자료를 활용하여 치료법의 유효성 및 안전성을 평가할 경우 환자-대조군 연구와 코호트연구가 혼합된 연구 설계를 사용한다. 성향점수매칭(propensity score matching) 등의 방법을 이용하여 치료법 외의 다른 기본적 특성이 유사한 실험군(특정 약물 치료 등)과 대조군을 선정하며 추적관찰을 통해 질병 발생을 확인한다.
연구 설계가 확정되면 이에 따라 통계분석 방법을 선택한다. 대부분의 단면연구 및 환자-대조군연구는 로지스틱 회귀분석(logistic regression analysis)을 이용하여 교차비를 산출한다. 추적조사를 통해 질병 발생을 확인하는 코호트연구는 카플란마이어법(Kaplan-Meier method)과 콕스회귀분석(Cox regression analysis)을 주로 이용한다.
이후, 통계적 유의성(statistical significance)을 평가하기 위해 유의확률(p-value)을 확인한다. 대부분의 연구자는 유의수준 0.05보다 작은 유의확률을 확인한 후 논문 작성을 시작한다. 하지만 기술통계분석을 통해 연구에 사용된 핵심 변수들을 자세히 확인할 필요가 있다. 또한, 대상자 수가 많아질수록 작은 차이에도 통계적으로 유의할 수 있으므로 임상적 유의성(clinical significance)에 대해 고려할 필요가 있다. 최종적으로 가설이 맞다면 논문을 작성한다. 가설이 틀렸다면 맞는 방향으로 가설을 설정하고 검증하기 위해 일련의 과정을 반복한다.