[모각코] day8 8/13 기초 통계분석

2022. 8. 14. 18:02ADsP 스터디

2절. 기초 통계분석

1. 기술통계

가. 기술통계의 정의

- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것

- 자료를 요약하는 기초적 통계를 의미

- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리함

예시) 줄기-잎 그림, 도넛차트, 히스토그램, 상자수염그림

나. 통계량에 의한 자료 정리

1) 중심 위치의 측도

가) 자료(데이터)

나) 표본평균

다) 중앙값

 

2) 산포의 측도

- 대표적인 산포도는 분산, 표준편차, 범위 및 사분위수범위

가) 분산

나) 표준편차

다) 사분위수범위

라) 사분위수

마) 백분위수

바) 변동계수

사) 평균의 표준오차

 

3) 분포의 형태에 관한 측도

가) 왜도

- 분포의 비대칭 정도를 나타내는 측도

tip. 왜도값이 주어졌을 때, 어떻게 해석하는지 알아야 함!

- 왜도가 양수인 경우는 왼쪽으로 밀집되어 있고, 오른쪽으로 긴 꼬리를 갖는 분포

- 왜도가 음수인 경우는 오른쪽으로 밀집되어 있고 왼쪽에 긴꼬리를 갖는 분포

- 왜도가 0인 경우 좌우대칭의 분포

 

나) 첨도

- 분포의 중심에서 뾰족한 정도를 나타내는 측도

다. 그래프를 이용한 자료 정리

1) 히스토그램

- 표로 되어 있는 도수 분포를 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것

 

2) 막대그래프와 히스토그램의 비교

- 막대그래프

: 범주형으로 구분된 데이터를 표현하며, 범주의 순서를 의도에 따라 바꿀 수 있음

- 히스토그램

: 히스토그램은 연속형으로 표시된 데이터를 표현하며 임의로 순서를 바꿀 수 없고 막대의 간격이 없음

 

3) 히스토그램의 생성

- 데이터의 수를 활용해서 계급의 수와 계급간격을 계산하여 도수분포표를 만들고 히스토그램을 생성함

- 계급의 수는 2^k >= n을 만족하는 최소의 정수 log_2 n = k에서 최소의 정수

- 계급의 간격은 (최대값-최소값)/계급수로 파악할 수 있음

- 계급의 수와 간격이 변하면 히스토그램의 모양이 변함

 

4) 줄기-잎 그림

- 데이터를 줄기와 잎의 모양으로 그린 그림

 

5) 상자그림

: 다섯 숫자 요약을 통해 그림으로 표현(최소값, Q1, Q2, Q3, 최대값)

사분위수 범위, 안울타리, 바깥울타리, 보통이상점, 극단이상점(바깥울타리 밖의 자료)

 

참고

R에서 활용되는 대표적 기술 통계

R code 설명
head(data명) 데이터를 기본 6줄 보여주어 데이터가 성공적으로 임포트 되었는지 살펴볼 수 있다.
head(data명, n) n에 숫자를 지정해주면 n번째 라인까지 살펴볼 수 있다.
summary(data명) 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다.
mean(data명$column명) 특정 컬럼의 평균을 알고 싶을 때 사용
median(data명$column명) 특정 컬럼의 중앙값을 알고 싶을 때 사용
sd(data명$column명) 특정 컬럼의 표준편차를 알고 싶을 때 사용
var(data명$column명) 특정 컬럼의 분산을 알고 싶을 때 사용
quantile(data명$column명) 특정 컬럼의 분위수를 알고 싶을 때 사용

2. 인과관계의 이해

가. 용어

1) 종속변수(반응변수, y)

- 다른 변수의 영향을 받는 변수

2) 독립변수(설명변수, x)

- 영향을 주는 변수

3) 산점도(scatter plot)

- 좌표평면 위에 점들로 표현한 그래프

 

참고

산점도에서 확인할 사항?

- 두 변수 사이의 선형관계가 성립하는가?

- 두 변수 사이의 함수관계가 성립하는가?

- 이상값이 존재하는가?

- 몇 개의 집단으로 구분되는가?

나. 공분산

- 두 확률변수 X, Y의 방향의 조랍(선형성)

- 공분산의 부호만으로 두 변수간의 방향성을 확인할 수 있음

- 공분산의 부호가 + 이면 두 변수는 양의 방향성, 공분산의 부호가 -이면 두 변수는 음의 방향성을 가짐

- X, Y가 서로 독립이면 공분산은 0

3. 상관분석

가. 상관분석의 정의

- 두 변수 간의 관계의 정도를 알아보기 위한 분석방법

- 두 변수의 상관관계를 알아보기 위해 상관계수를 이용

나. 상관분석의 유형

구분 피어슨 스피어만
개념 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식 서열척도인 두 변수들의 상관관계 측정 방식
특징 연속형 변수, 정규성 가정
대부분 많이 사용
순서형 변수, 비모수적 방법
순위를 기준으로 상관관계 측정
상관계수 피어슨(적률상관계수) 순위상관계수

다. 상관분석의 가설 검정

- 상관계수가 0이면 입력변수와 출력변수 사이에는 아무런 관계가 없음

- t검정통계량을 통해 얻은 p-value값이 0.05 이하인 경우, 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있게 됨