Data type (statistics)

Introduction

사실에 대한 기록을 data(데이터)라 한다.

기록하는 값에 따라 데이터의 type(형태)를 구분할 수 있으나, 그 구분은 목적에 따라 달라지게 된다. 통계 혹은 데이터 과학 분석을 위해서는 continuous value 인지 discrete 값인지 분류가 중요하다. Programming language에서는 데이터를 저장하는 형태에 따라 integer, float, string 등의 데이터 타입이 존재한다.

개별 통계 분석 방법은 데이터의 성질과 밀접히 관련되어 있다. 따라서 통계 분석 방법을 적용하기 전에 어떤 데이터 타입인지 명확히 분석해야 한다.

여기에서는 통계 혹은 데이터 과학 분석을 위한 data type에 대해서 정리한다.

Data types

데이터는 우선 양적인 개념을 포함하고 있는 지에 대한 여부로 구분할 수 있다. 양적인 정보를 가진 경우 quantitative data(양적 데이터) 혹은 numerical data(수치 데이터)라 하며, 양적 정보를 가지지 않은 경우 qualitative data(질적 데이터) 혹은 categorical data(범주 데이터)라 한다.

Quantitative data는 그 값의 연속성에 따라 구분할 수 있다. 값이 연속적인 경우 continuous data(연속 데이터)라 하며, 그렇지 않은 경우 discrete data(불연속 데이터)로 구분된다.

Qualitative data는 위계 관계 여부에 따라 구분할 수 있다. 위계 관계가 없는 경우 nominal data(명목 데이터)라 하며, 위계 관계가 있어 순서를 부여할 수 있는 경우 ordinal data(순서 데이터)라 한다. 참고로, 위계 관계는 숫자로 표현할 수 있어 양에 대한 정보로 생각할 수 있으나, 같은 질의 대상의 양이 많고 적음이 아니라 질적인 차이가 난다는 점에서 양적인 데이터라 할 수 없다.

Data type속성예제
Continuous양적 정보, 연속 값170.2 cm, 182.6 cm, …
50.1 kg, 66.2 kg, …
Discrete양적 정보, 불연속 값1회, 2회, …
Ordinal질적인 차이가 존재하는 데이터
순서 존재 (ordinal)
1등급, 2등급, …
Nominal질적 차이가 존재하지 않는 데이터빨강, 파랑, 초록, …

Normal and non-normal data (continuous value)

연속적인 값은 그 분포에 따라 종류를 세분화 할 수 있다. 많은 통계 모델은 그 값이 가진 분포와 관련이 있으므로 이런 세부 분포가 중요하다. 특히 normal distribution을 지닌 variable에 기초한 방법이 많기 때문에, 연속적인 값이 normal distribution을 따르는지 따르지 않는지 여부를 판단하는 것이 중요하다.

Non-normal distribution의 연속 값인 경우 다양한 distribution을 가지기 때문에 특화된 방법을 사용하기 보다는 ordinal distribution으로 전환해서 분석하는 경우가 많다.

Data type속성
normal값의 분포가 normal distribution을 따르는 경우
non-normal값의 분포가 normal distribution을 따르지 않는 경우

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top