데이터 이야기/EXCEL

[데이터분석 - Excel] #2. 탐색적 데이터 분석 (EDA)

sssoing-k 2022. 9. 15. 13:35

데이터 분석에 앞서 준비해야 할 작업들이 있다.

먼저 Raw 데이터 파악과 탐색을 진행하는 EDA와

내가 원하는 결과, 인사이트 파악을 위해 데이터를 변형/재구성하는 전처리 작업이다.

 

첫번째인 EDA에 대해 알아보자.

 

EDA 즉, 탐색적 데이터 분석 (Exploratory Data Analysis) 이란?

: 주어진 자료를 가지고도 충분히 정보를 찾을 수 있도록 하는 자료 분석 방법

 

왜 진행해야 하는가?

  • 내 입맛에 딱 맞는 데이터는 1도 없다.
  • 수집된 데이터 특성과 분포를 파악해야 한다.
  • 결측치, 이상치의 존재 유무를 파악할 수 있다.
  • 분석에 필요한 데이터 전처리를 수행할 수 있다.
  • 가장 적합한 분석 방법을 결정할 수 있다.

EDA 작업 단계

1) 데이터 형태 파악하기 (데이터 리터러시)

- 데이터 유형

- 데이터 개수

- 데이터 계급 종류

- 데이터 계급 개수

- 계급별 데이터 개수

 

2) 데이터 분석 도구 활용하기 (Excel)

기초 통계량 계산하기

[데이터 분석 도구] > [기술 통계법]

평균 / 표준 오차 / 중앙값 / 최빈값 / 표준 편차 / 분산 / 첨도 / 왜도 / 범위 / 최소값 / 최대값 / 합 등

 

3) 피벗 테이블 활용하기 (Excel)

- 피벗 테이블 : 커다란 표 데이터를 요약하는 통계표

- 1st Step : 복잡한 Raw 데이터에서 어떤 요약 통계표를 만들 것인지 구조를 먼저 짤 것

- 2nd Step : 직접 만든 구조에 따라 [피벗 테이블 필드]의 필터/열/행/값 드래그

4) 그래프 확인하기 (Excel)

- 산점도 : 데이터를 점으로 표현하여 흩어져 있는 정도를 파악함

- 박스 플랏 : 최소값, 제 1사분위수, 중앙값, 제 3사분위수, 최대값을 활용하여 그리는 그래프로 이상치 유무 파악헤 활용

어떤 작업을 진행하기 전에는 꼭

내가 어떤 작업을 할 것인지 충분히 고민하고

내가 가지고 있는 내용에 대해 충분히 이해하고 있는지 탐구하는 해보는 것이

작업의 첫번째 발걸음이 될 것-!