Data Science

Posts on tools for data science

Data type (statistics)

Introduction 사실에 대한 기록을 data(데이터)라 한다. 기록하는 값에 따라 데이터의 type(형태)를 구분할 수 있으나, 그 구분은 목적에 따라 달라지게 된다. 통계 혹은 데이터 과학 분석을 위해서는 continuous value 인지 discrete 값인지 분류가 중요하다. Programming language에서는 데이터를 저장하는 형태에 따라 integer, float, string 등의 데이터 타입이 존재한다. 개별 통계 분석 방법은 데이터의 성질과 밀접히 관련되어 있다. […]

Data type (statistics) Read More »

Kaggle 시작하기 (Kaggle API 활용)

Kaggle은 데이터에 기반한 예측 모델을 만드는 경쟁을 할 수 있는 공간이다. Kaggle에는 다양한 데이터셋이 존재하고, 이를 이용하여 예측 모델을 구성하고, 그 성능을 다른 사람들이 만든 예측 모델의 성능과 비교할 수 있다. 1. Kaggle API를 이용해 시작하기 (Linux) Kaggle competition에 참여하기 위해서는 데이터를 받아서 예측 모델을 만들고, 예측 결과를 Kaggle에 업로드하면 된다. 이 과정을 web을 통해

Kaggle 시작하기 (Kaggle API 활용) Read More »

Docker – 설치

이 문서는 docker 공식 싸이트를 참고해 작성하였다 (https://docs.docker.com/engine/install/ubuntu/). (optional) 이전 버전 docker 지우기 오래된 docker engine이 있는 경우, 아래 명령을 통해 삭제한다. 1. Installation 1.1. Set-up repository Docker engine은 docker hub (repository)을 통해 다른 개발자가 만든 docker image를 활용할 수 있다. 이를 위해 docker engine 설치에 앞서, repository 접근 설정이 필요하다. Install prerequisite packages for

Docker – 설치 Read More »

Docker

Introduction Docker는 프로그램 설치와 배포를 도와주는 platform이다. 하나의 컴퓨터에 독립적인 공간을 만드는 기술이다. 일종의 가상의 컴퓨터를 만드는 것으로 생각할 수도 있다. 다만, CPU와 memory 등의 자원은 원래 컴퓨터와 공유한다는 특징이 있다. Python 환경 관리를 넘어서, 시스템의 환경 까지 관리해야 할 경우 docker가 유용하게 사용될 수 있다. Docker image를 공유함으로써 프로그램을 개발한 환경과 거의 동일한 환경을

Docker Read More »

Infographic (인포그래픽)

인포그래픽(Infographic)은 정보(information)과 그래픽(graphic)의 합성어로 이야기를 시각 정보로 전달하는 매체를 의미한다. 인포그래픽은 다른 매체와 마찬가지로 정보 전달 혹은 설득의 목적으로 만들어지는 매체이나, 정보를 시각적 표현으로 변환해 전달한다는 특징이 있다. 숫자나 문자로 구성된 데이터를 직접 전달하기 보다, 그림이나 도표와 같은 이미지 정보로 전환해 제공한다는 특징이 있다. 단어와 같은 개념도 문자로 제공하지 않고 아이콘(icon)이나 illlustration 형태로 제공한다. 이를

Infographic (인포그래픽) Read More »

Statistical tests

Paired or matched observations Paired observation은 같은 값의 비교를 의미한다. 예를 들어 혈압력 복용 전/후의 혈압과 같이, 동일한 사람에 대한 동일한 혈압의 측정치를 비교하는 경우를 의미한다. Variable Test nominal McNemar’s Ordinal Wilcoxon Quantitative (non-normal) Wilcoxon Quantitative (Normal) paired t-test Independent observations 하나의 sample에 대해서 두 개 이상의 변수 값을 측정하였을 때, 두 변수가 독립적인지 검증한다.

Statistical tests Read More »

Scroll to Top