데이터 분석에 앞서 준비해야 할 작업들이 있다.
먼저 Raw 데이터 파악과 탐색을 진행하는 EDA와
내가 원하는 결과, 인사이트 파악을 위해 데이터를 변형/재구성하는 전처리 작업이다.
첫번째인 EDA에 대해 알아보자.
EDA 즉, 탐색적 데이터 분석 (Exploratory Data Analysis) 이란?
: 주어진 자료를 가지고도 충분히 정보를 찾을 수 있도록 하는 자료 분석 방법
왜 진행해야 하는가?
- 내 입맛에 딱 맞는 데이터는 1도 없다.
- 수집된 데이터 특성과 분포를 파악해야 한다.
- 결측치, 이상치의 존재 유무를 파악할 수 있다.
- 분석에 필요한 데이터 전처리를 수행할 수 있다.
- 가장 적합한 분석 방법을 결정할 수 있다.
EDA 작업 단계
1) 데이터 형태 파악하기 (데이터 리터러시)
- 데이터 유형
- 데이터 개수
- 데이터 계급 종류
- 데이터 계급 개수
- 계급별 데이터 개수
2) 데이터 분석 도구 활용하기 (Excel)
기초 통계량 계산하기
[데이터 분석 도구] > [기술 통계법]
평균 / 표준 오차 / 중앙값 / 최빈값 / 표준 편차 / 분산 / 첨도 / 왜도 / 범위 / 최소값 / 최대값 / 합 등
3) 피벗 테이블 활용하기 (Excel)
- 피벗 테이블 : 커다란 표 데이터를 요약하는 통계표
- 1st Step : 복잡한 Raw 데이터에서 어떤 요약 통계표를 만들 것인지 구조를 먼저 짤 것
- 2nd Step : 직접 만든 구조에 따라 [피벗 테이블 필드]의 필터/열/행/값 드래그
4) 그래프 확인하기 (Excel)
- 산점도 : 데이터를 점으로 표현하여 흩어져 있는 정도를 파악함
- 박스 플랏 : 최소값, 제 1사분위수, 중앙값, 제 3사분위수, 최대값을 활용하여 그리는 그래프로 이상치 유무 파악헤 활용
어떤 작업을 진행하기 전에는 꼭
내가 어떤 작업을 할 것인지 충분히 고민하고
내가 가지고 있는 내용에 대해 충분히 이해하고 있는지 탐구하는 해보는 것이
작업의 첫번째 발걸음이 될 것-!
'데이터 이야기 > EXCEL' 카테고리의 다른 글
[데이터분석 - Excel] #2. 탐색적 데이터 분석 (EDA) - 피벗 테이블 (0) | 2022.10.04 |
---|---|
[데이터분석 - Excel] #3. 데이터 전처리 (2) 기능 편 (0) | 2022.10.04 |
[데이터분석 - Excel] #3. 데이터 전처리 (1) 함수 편 (0) | 2022.09.15 |
[데이터분석 - Excel] #1. 엑셀의 기본 원리 (0) | 2022.09.14 |
[데이터분석 - Excel] #0. 엑셀로 하는 데이터 분석 (0) | 2022.09.14 |