데이터 시각화와 차트분석 기법

2021. 9. 24. 22:22빅데이터 스터디

 차트를 왜 쓰는가?

1. 비교와 순위 매기기

2. 전체중에 얼마에 해당되는가 파악

3. 트렌드 파악(시세, 추세)

4. 상관관계 파악(인공지능, 머신러닝, 딥러닝)

5. 분산정도 (얼마나 퍼져 있는가 , 중심값? ,유효값?)



데이터 시각화 - 핵심차트 10

-차트의 용도와 목적에 맞는 사례를 중심으로

 

# 비교를 위해 사용하는 차트

1. column chart

2. bar chart

3. pareto chart  - 가장 중요한 부분 찾기(일종의 히스토그램)

4. Dual axis chart

 

# 전체중에 얼마에 해당되는가 파악

1. pie chart

 

# 트렌드 파악

1. line chart(주로 시계열 분석 - 시간에 따른 추세)

 

# 상관관계(연관성) 파악

1. scatter chart - 분포를 보면서 패턴의 파악에 용이

2. Bubble chart - bubble 하나하나의 크기를 알 수 있다 ex) BCG 차트

3. Heat map - 색온도 표현, 다양한 데이터를 직관적으로 파악하기에 좋다 ,두개의 item간의 관계 파악 용이

 

# 분산정도

1. histogram - bin(하나의 bar)단위

2. box plot -(minimum, maximum, first quartile(상위 25 %), third quartile(상위 75 %),median)

3. geo chart(교통, 운수업에서 주로 사용)-> 국가별 코로나 확진자

 

 

 

 

 

 

보스턴 마라톤 대회 3개년간의 데이터를 분석하는 예제

1. column chart

-스포츠 용품 회사 마케팅 담당자의 입장에서

미국의 50개주에서 어떤 주에서 많이 참여하는지? 어느 주에 마케팅을 많이 해야 하는가?

각 주별로 남성과 여성 어느 성별이 많이 참여하는지? 광고 모델의 변화, 주력상품 배치의 변화

어느 주 에서 참가자가 증가하는 추세인가? -> column차트이지만 트렌드를 나타내는 지표로 쓸 수도 있다

 

2.Dual Axis chart

x축을 공유하고 y축의 스케일을 좌우로 다르게 둔다

히스토그램의 일부로 보기도 한다

-스포츠 용품 회사 마케팅 담당자의 입장에서

문제점 , 상품의 선택과 집중할때

연령별로 광고를 만들었을때 어느 상품을 많이 팔아야하는가?

광고판의 수는 제한되어 있으므로 상위 40%의 연령에만 집중하고 싶다

 

3. pie chart

남여 성비를 알고 싶다 -> 어느 모델을 기용해야 하는가?

 

4. line chart

마라톤의 상위 100명에서 거리 구간별로 어떤 페이스를 가지고 달렸는지?

 

5. scatter chart

머신러닝에서 주로 사용

연령별, 남여별 완주시간 어느정도로 분포 되어 있는지?

 

6. bubble chart

보스턴 경찰의 관점에서

시각화를 통해 어느 지점에 앰뷸런스를 배치해야 하는가?

 

7. heatmap

색온도를 통해 직관적으로 데이터 파악

-스포츠 용품 회사 마케팅 담당자의 입장에서

가장 많은 빈도의 연령대 성별의 색온도 분석

 

8. histogram

-스포츠 용품 회사 마케팅 담당자의 입장에서

어느 나이에서 가장 참여자가 많은가?

 

9.  box plot chart

분포에 대해서 직관적으로 파악할 수 있다 상위 75% ,25 % 중위값 파악 가능

 

10.  Geo chart

어느지점에 얼마만큼 사람이 있는가 지도에 표시, folium사용