Skip Navigation
Skip to contents

대한당뇨병학회 E- Newsletter VOL 007


UK Biobank 데이터 분석의 실제

서울의대 서울대학교병원 내분비대사내과 곽수헌

1. UK Biobank 소개

UK Biobank는 대규모의 생물의학 데이터베이스로, 연구 자원으로서의 가치를 지니고 있습니다. 이 데이터베이스에는 총 500,000명의 영국 참가자들로부터 얻은 유전체 및 건강 데이터가 포함되어 있습니다. 2006년부터 40-69세의 영국 거주 참여자 모집이 시작되었으며 공개되어 있는 가장 큰 규모, 양질의 바이오뱅크입니다. 전세계 모든 연구자에게 공개되어 있으며 현재까지 6,000 편 이상의 논문이 UK Biobank를 이용하여 출판되었다고 합니다 (https://www.ukbiobank.ac.uk).
데이터를 사용하기 위해서는 연구계획서를 작성하여 기관윤리승인을 받고 UK Biobank 심의위원회를 통과해야 합니다. 이후 데이터에 접근하려는 연구자나 기관은 사용하고자 하는 데이터의 종류와 양에 따라 데이터 사용료를 지불해야 합니다. 기본 임상정보만 포함하는 Tier 1의 경우 3,000 파운드, 혈액검사, GWAS 유전체 결과를 포함하는 Tier 2의 경우 6,000 파운드, Whole Exome/Genome Sequence, 영상 검사 등 대용량 데이터를 포함하는 Tier 3의 경우 9,000 파운드의 비용을 지불해야합니다.

2. 이용 가능한 데이터 카테고리

UK Biobank는 환경정보, 신체 활동 측정, 혈액 및 소변 검사 결과, 생물학적 샘플 데이터, 유전체학 데이터, 건강 관련 결과, 식이정보, 정신 건강, 의료 이용, 작업 환경, 인구 특성, 인지 기능 등의 다양한 카테고리의 데이터를 제공합니다. 수집된 정보 목록은 다음 웹페이지에서 확인이 가능하다. https://biobank.ndph.ox.ac.uk/showcase/

3. 데이터 구조

UK Biobank의 데이터는 F. I. A 형식으로 구성되어 있습니다. 이 구조에서 각 필드는 특정 ID (Field Variable), 인스턴스 (Instance Index), 그리고 배열 색인 (Array Index)으로 구분되게 됩니다.

4. 유전 데이터 파일 형식

유전 데이터는 BGEN, PLINK, 그리고 Variant call format 등의 다양한 파일 형식으로 제공됩니다.

5. UK Biobank 연구 분석 플랫폼 (UK Biobank Research Analysis Platform)

데이터 접근을 원하는 연구자는 UK Biobank 접근 관리 시스템 (UK Biobank Access Management System, https://ams.ukbiobank.ac.uk/ams/)을 통해 온라인으로 데이터 접근 신청을 해야 합니다. 이 신청서는 검토 과정을 거친 후 수정이 필요한 경우가 있을 수 있습니다. 승인을 받게 되면 물질 이전 협약 및 데이터 접근에 대한 비용이 청구됩니다. 이후 Tier 1, Tier 2의 데이터는 직접 다운로드가 가능합니다. 하지만 Tier 3의 대용량 데이터는 DNA Nexus, 즉 UK Biobank 연구 분석 플랫폼(UK Biobank Research Analysis Platform, https://ukbiobank.dnanexus.com/landing)을 통해서만 조회 및 분석할 수 있으며, 이 플랫폼은 Amazon Web Services를 기반으로 합니다. 연구자들은 JupyterLab을 사용하여 Python, R 등의 언어로 데이터를 분석할 수 있으며, 여기에는 추가 저장 및 계산 자원 사용에 대한 비용이 발생할 수 있습니다.

6. 맺음말

UK Biobank에 20,000 명 이상의 당뇨병 환자가 포함되어 있으며 이들의 자세한 임상, 유전체, 활동량정보, 영상정보, 병원 이용 기록등을 사용할 수 있습니다. 따라서 당뇨병의 다양한 위험인자 및 합병증 발병에 대한 중요한 연구자료로 활용할 수 있습니다.