Data analysis – basic

Introduction

데이터 분석이란

데이터 분석은 데이터를 가공하여 새로운 지식을 도출하는 과정이다. 데이터는 자연 현상을 관찰한 결과의 기록이고, 따라서 데이터는 자연 현상에 대한 정보를 지니고 있을 것이다. 데이터로부터 그 정보를 추출하는 과정이 데이터 분석이다.

데이터 분석 과정

데이터 분석을 위해서는 (1) 데이터 수집, (2) 데이터 저장, (3) 데이터 정제, (4) 데이터 처리 / 분석, (5) 결과 해석의 과정으로 구성된다. (1) 데이터 수집은 실험을 통해 직접 데이터를 생산하는 과정일 수도 있고, public 하게 접근할 수 있는 데이터베이스로부터 필요한 정보를 수집하는 과정일 수도 있다. 수집한 데이터는 분석에 앞서 체계적으로 (2) 저장해야 한다. 데이터 분석 방법에 따라 필요한 형태로 데이터를 가공할 수 있다. 질이 낮은 데이터나 데이터 분석에 사용할 수 없는 데이터를 제거하는 (3) 정제 과정을 수행한다. 이렇게 확보한 데이터를 통계적인 방법이나 전산학적 모델을 이용하여 (4) 분석한다. 분석 결과 데이터를 구성하는 요소들 간의 관계와 같은 새로운 데이터 혹은 지식으로 전환한다. 마지막으로 분석 결과를 (5) 해석하여 새로운 지식을 도출하고, 이를 다른 사람에게 제시한다.

1. 데이터 수집

1.1. 실험을 통한 데이터 수집

자연 현상을 관찰하여 그 결과를 기록한 것이 데이터이다. 이 때 무엇을 관찰할 것인지, 어떻게 관찰할 것인지, 관찰 결과를 어떻게 기록할 것인지 결정해야 한다. 데이터 분석 목적에 따라 다양한 실험 방법을 활용할 수 있다. 암 환자 유전체 정보를 NGS 기술을 이용해 획득할 수도 있고, 암 조직의 돌연변이 정보를 획득하거나, 암 조직의 유전자 발현 패턴 정보를 수집할 수도 있다. 즉, 하나의 현상 혹은 대상에 대해 다양한 데이터를 수집할 수 있는 것이다. 이 때 각 데이터가 가지는 특징을 이해할 필요가 있다. 어떤 데이터를 사용했는지에 따라 분석 결과를 올바르게 해석할 수 있기 때문이다.

1.2. Public database를 이용한 데이터 수집

실험을 통한 데이터 수집은 새로운 정보를 얻는 가장 확실한 방법이다. 하지만, 그만큼 쉽지 않은 과정이기도 하다. 어렵게 얻은 데이터인 만큼 최대한 활용할 필요가 있고, 데이터를 저장하는 데이터베이스들이 구축되어 있다.

NCBI, EBI를 비록해 다양한 기관에서 생명과학 데이터를 수집하고 제공하고 있다. 주요 데이터베이스를 파악하고, 각 데이터베이스를 활용하여 데이터를 분석할 수 있다. 특히, 특정 대상에 대한 연구가 아닌, 새로운 데이터 분석 방법을 개발하기 위해서는 public database를 분석하는 것이 더 바람직하다고 할 수 있다.

2. 데이터 저장

데이터를 수집한 후에는 데이터를 저장해야 한다. 특정한 형태를 가진 파일로 데이터를 저장할 수도 있고, MySQL과 같은 database management system을 이용하여 데이터를 저장할 수 있다.

Public database를 이용하는 경우, 데이터가 모두 동일한 형식을 가지고 있어 제공하는 형식의 데이터를 그대로 저장하면 된다. 그렇지만, 이 경우에도 연구에 사용하는 시스템에 데이터를 어떻게 저장할 것인지에 대한 규칙을 만들 필요가 있다. 파일 형태의 데이터를 저장하는 경우, 파일을 저장할 디렉토리의 구조를 어떻게 정의할 것인지도 생각해야 한다. 특히, 나중에 데이터를 사용할 때, 각 데이터의 수집 방법 등의 metadata를 같이 기록해 둘 필요가 있다.

3. 데이터 정제

데이터는 특정한 값이 누락되거나 비정상적인 값이 입력된 불완전한 데이터를 포함할 수 있다. 이러한 데이터는 추후 분석 과정을 방해할 수 있기 때문에 미리 제거할 필요가 있다. 이러한 과정을 데이터 정제 과정이라 한다.

4. 데이터 분석

데이터를 가공하여 새로운 데이터로 전환 하는 과정을 거친다. 예를 들어, 장내 미생물이 암환자와 비질환자에서 관찰되는 빈도가 차이를 통계적으로 분석하여 암환자 특이적 미생물을 발굴할 수 있다. 즉, 미생물 빈도 데이터를 분석하여 암환자와 관련있는 미생물 데이터/정보로 전환할 수 있다.

다양한 데이터 분석 방법이 있으나, 크게 통계학적 분석과 기계학습 분석 방법으로 구분할 수 있다.

5. 결과 해석

마지막 과정은 데이터 분석 결과 얻은 새로운 데이터 혹은 정보를 해석하는 과정이다. 분석 결과 얻은 데이터에 의미를 부여하는 과정으로, 분석 결과의 이미를 설명하는 과정이다. 앞서 언급한 예에서는 발굴한 미생물이 어떻게 암과 관련될 수 있는지 설명하는 과정이 필요하다. 기존의 연구 결과라는 context에서 결과를 해석해야 한다. 문헌 조사를 통해 관련성을 입증할 수도 있으며, 추가적인 실험을 통해 입증할 수도 있다.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top