데이터 이야기 18

[데이터분석 - Python] #1. 파이썬 Basic - 변수

변수(Variable)란 무엇인가? 변수는 말 그대로 '변할 수 있는 대상'을 의미하며 우리는 컴퓨터에 데이터를 저장하기 위해 변수를 활용합니다. 자주 활용하는 데이터 값이나 데이터 형태를 할당/디파인/바인딩 등을 하는 작업을 의미합니다. 변수 선언하고 값 저장하기 # a라는 변수명에 100을 값으로 할당해 봅시다. # 컴퓨터의 메모리 상 a라고 하는 이름에 10이라는 값을 할당하는 것을 의미합니다. a = 100 변수의 종류(Type)와 저장할 수 있는 값의 데이터 타입 정수 : int 실수 : float 문자열 : str 불리언 : bool 객체 : class, model 등 변수의 형변환 int() : 정수로 변환 float() : 실수로 변환 str() : 문자열로 변환 변환해야 할 데이터를 명령..

[데이터분석 - Python] #0. 파이썬 활용하기 (feat. 주피터 노트북)

파이썬이란? 프로그래밍 언어의 일종으로 영어와 비슷한 문법과 비교적 쉬운 작성으로 초보자들이 처음 프로그래밍을 배울 때 추천되는 언어를 말한다. 프로그래밍 언어이기 때문에 코딩 가독성을 위해 권장하는 스타일과 문법이 있다. 공식 문서(PEP 8)를 한번 숙지하면 파이썬 작성에 도움이 될 것이다. 파이썬 편집 프로그램 주피터 노트북 : 데이터 분석가가 가장 많이 사용하는 편집 프로그램으로 코드 작성/실행과 리포트 작성까지 활용 가능하다. Colab : Google Colaboratory - 클라우드 환경에서 사용할 수 있는 프로그램으로 프로그램 접근성이 좋다. 나는 주로 주피터 노트북을 활용하여 파이썬 학습을 진행했다. 주피터 노트북 특징 1) 셀 단위 실행 2) 결과값도 셀 단위 실행 결과를 바로 확인 ..

[데이터분석 - Excel] #2. 탐색적 데이터 분석 (EDA) - 피벗 테이블

엑셀에는 EDA에 가장 적합한 툴이자, 데이터 요약/자동화에 적합한 기능이 탑재되어 있다. '피벗 테이블' : 커다란 표의 데이터를 요약하는 통계표 Step.1 - 피벗 테이블 생성 데이터 선택 > [삽입]탭 > 피벗 테이블 Step.2 - 피벗 테이블 사용하기 [피벗 테이블 필드]의 필드를 필터/열/행/값 중 필요한 부분에 드래그 클릭과 드래그만으로 사용할 수 있는 피벗 테이블 기능은 바로 실행하기 보다, EDA를 통해 Raw 데이터의 컬럼과 데이터 형식들을 전반적으로 살펴본 후에 어떤 피벗테이블을 만들 것인지 구조를 직접 그려본 후 기능을 접목하는 것이 복잡한 피벗테이블의 구조와 기능을 효율적으로 사용할 수 있다!

[데이터분석 - Excel] #3. 데이터 전처리 (2) 기능 편

1. 텍스트 나누기로 데이터 분리하기 텍스트 나누기 : '1개의 셀에는 1가지 정보만' 1개의 셀에 있는 데이터를 구분 기호와 너비 등의 기준으로 2개 이상의 셀에 나누는 기능 [데이터]탭 > [텍스트 나누기] > [구분 기호로 분리됨] > [기타] 체크 > '-' 입력 > [마침] 2. 중복된 항목 제거하기 특정 열에서 중복되어 있는 데이터를 1개씩만 남기고 제거하는 것 * 선택한 열에 입력된 데이터의 중복만 제거하거나, 중복된 데이터가 포함된 행 전체를 제거할 수 있음 [데이터]탭 > [중복된 항목 제거] > 중복 값을 제거할 기준 열 선택] > [확인] 3. 필터와 고급 필터 Filter : 특정 열에서 중복되어 있는 데이터를 1개씩만 남기고 제거(고유값 추출) 단축키 : Alt + D + F + ..

[데이터분석 - Excel] #3. 데이터 전처리 (1) 함수 편

Garbage in, garbage out. 강의에서 만난 강사님들 중 3분중에서 2분은 말씀하신 문구다. 그만큼 데이터 분석 과정에서 [데이터 전처리] 작업이 중요하고 가장 많은 시간과 비용이 필요하다. '데이터 전처리' 란? 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정을 말한다. 데이터 및 변수 형태 변환 변수 선정 결측치 및 이상치처리 데이터 분류 데이터 분리 혹은 결합 기타 데이터 가공 및 처리 주로 함수를 사용해서 데이터 전처리를 진행하게 되는데, 기본 함수는 아래와 같다 =TODAY() : 오늘 날짜 =SUM(C5:C12) : C5에서 C12까지의 숫자 합 =AVERAGE(C5:C12) : C5에서 C12까지의 숫자의 평균 이번 강의에서는 데이터 전처리에 주로 사용하는 ..

[데이터분석 - Excel] #2. 탐색적 데이터 분석 (EDA)

데이터 분석에 앞서 준비해야 할 작업들이 있다.먼저 Raw 데이터 파악과 탐색을 진행하는 EDA와내가 원하는 결과, 인사이트 파악을 위해 데이터를 변형/재구성하는 전처리 작업이다. 첫번째인 EDA에 대해 알아보자. EDA 즉, 탐색적 데이터 분석 (Exploratory Data Analysis) 이란?: 주어진 자료를 가지고도 충분히 정보를 찾을 수 있도록 하는 자료 분석 방법 왜 진행해야 하는가?내 입맛에 딱 맞는 데이터는 1도 없다.수집된 데이터 특성과 분포를 파악해야 한다.결측치, 이상치의 존재 유무를 파악할 수 있다.분석에 필요한 데이터 전처리를 수행할 수 있다.가장 적합한 분석 방법을 결정할 수 있다.EDA 작업 단계1) 데이터 형태 파악하기 (데이터 리터러시)- 데이터 유형- 데이터 개수- 데..

[데이터분석 - Excel] #1. 엑셀의 기본 원리

엑셀을 활용한 데이터 분석에 앞서,반드시 알고 있어야 할 엑셀의 기본 원리는지구 끝날 때까지 기억해야 한다.(원래 익숙함이 무서운 거다. 기본이 흔들리면 근간이 무너진다.) 01. 엑셀 데이터 1) Value : 값- 텍스트 : 문자 데이터 (연산 불가능) / 왼쪽 정렬- 숫자 : 숫자 데이터 (연산 가능) / 오른쪽 정렬 2) Formula : 수식- 계산식 : 사칙연산, 논리연산 등 / +-*/- 함수 : 데이터를 입력하면 특정 결과를 출력 3) Format : 서식- 글꼴 서식 : 글꼴 색, 크기, 굵게, 기울임, 밑줄 등 / Demension 구분자- 셀 서식 : 셀 배경색, 테두리 등 / 데이터 영역 구분자 우리가 가장 많이 사용하는 Ctrl + c/v는 위 1) 2) 3) 모두가 적용 되는 방..

[데이터분석 - Excel] #0. 엑셀로 하는 데이터 분석

오프라인 수업 7일차 짧지만 묵직했던 파이썬의 태풍이 지나고,,복습만을 다짐하며 바로 엑셀 데이터에 대한 공부가 시작되었다.  나름 MS 오피스에 대한 친숙도가 높았기 때문에파이썬과 같이 개발자들의 '구조'를 이해하는 단계가 없을 거라 생각하며나름 기대하고 있었던 강의였는데,, 강의 수강 후기를 먼저 요약하자면 [엑셀의 신세계] 다.. 내가 써왔던 엑셀은 대부분이 견적서, 일정이나 정보를 정리하는 '문서'의 역할로값/수식/서식을 입력하고 정리하는 수준이었고나는 이정도 만으로도 엑셀은 충분히 좋은 Tool이라고 생각하고 있었다. 나처럼 데이터 분석 입문을 시작하거나, 넘의 일처럼 여기는 사람들 중액셀에 대한 이해도가 있으신 분들께 공감할 수 있는 질문을 던져 보자면,Q. 엑셀 기본 기능 중 '데이터' 도구..