2022. 8. 12. 11:57ㆍADsP 스터디
제4장 통계 분석
제1절 통계분석의 이해
• 통계
- 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
• 통계자료의 획득 방법
- 총 조사(census): 대상 집단 모두를 조사하는 것. 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않는다.
- 표본조사:
· 모집단: 조사하고자 하는 대상 집단 전체
· 원소: 모집단을 구성하는 개체
· 표본(sample): 조사하기 위해 추출한 모집단의일부 원소
· 모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
· 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.
- 표본 추출 방법에 따라 분석 결과 해석에 큰 차이가 발생한다.
1. 단순랜덤추출법(simple random sampling): 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법. 각 샘플이 선택된 확률은 동일
2. 계통추출법(systematic sampling): 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 선택. 임의의 위치에서 매 k번째 항목추출
3. 집략추출법(cluster random sampling): 군집을 구분하고 군집별로 단순랜덤추출법을 한 후 모든 자료를 활용하거나 샘플링하는 방법.
4. 층화추출법(stratified random sampling): 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법
- 실험: 특정 목적 하에서 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법
• 측정(measurement)
- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측하여 자료를 얻는 것
• 통계분석
- 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.
- 기술통계(descriptive statistic): 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계 집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- 추측통계(inference statistic): 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것
· 모수추정: 표본으로부터 모집단의 특성인 모수를 분석하여 모집단을 추론한다.
· 가설검정: 대상 집단에 대해 특정 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법
· 예측: 미래의 불확실성을 해결해 효율적인 의사결정을 위해 수행
• 확률 및 확률분포
1. 확률
- 특정 사건이 일어날 가능성의 척도
· 표본공간: 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
· 사건: 관찰자가 관심이 있는 사건. 표본공간의 부분집합
· 원소: 나타날 수 있는 개개의 결과들
2. 확률변수
- 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역이 표본공간, 치역이 실수값인 함수
- 0이 아닌 확률을 가지는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분
3. 이산형 확률변수(discrete random variable)
- 0이 아닌 확률 값을 가지는 변수가 셀 수 있는 경우(확률질량함수)
· 베르누이 확률분포(Bernoulli distribution): 결과가 2개만 나오는 경우
· 이항분포(Binomial distribution): 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다.
- 성공할 확률 p가 0.5에 가까우면 종모양
· 기하분포(Geometric distribution): 성공 확률이 p인 베르누이 시행에서 첫 성공이 있기까지 x번 실패할 확률
· 다항분포(Multi-nomial distribution): 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
· 포아송분포(Poisson distribution): 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
4. 연속형 확률변수
- 가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률변수(확률밀도함수)
· 균일분포(uniform distribution): 모든 확률변수 X가 균일한 확률을 가지는 확률분포
· 정규분포(normal distribution): 평균이 μ 이고 표준편차가 σ 인 x의 확률밀도함수
· 표준정규분포: 평균이 0이고 표준편차가 1인 정규분포
· t-분포: 두 집단의 평균이 동일한지 알고자 할 때 활용하는 검정통계량. 정규분포보다 더 퍼져있고 자유도가 커질수록 정규분포에 가까워집니다.
· χ2 분포(chi-square distribution): 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포. 두 집단 간의 동질성 검정에 활용된다. 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용. 자유도가 작을 때는 왼쪽에 치우쳐 있지만 자유도가 커질수록 정규분포형태가 됩니다.
· F-분포: 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포. 정규분포 형태와 비슷하나 오른쪽 꼬리가 긴 모양. 두 개의 자유도가 증가할수록 정규분포에 가까워집니다.
• 추정과 가설검정
1. 확률표본(random sample)
- 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.
- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.
- 각 관찰값들은 서로 독립적이며 동일한 분포
· 추정(estimation): 표본으로부터 미지의 모수를 추측하는 것이다.
· 점추정: "모수가 특정한 값일 것"이라고 추정하는 것이다. 표본의 평균, 중위수, 최빈값 등을 사용한다.
- 점추정량의 조건:
① 불편성(unbiasedness): 모든 가능한 표본에서 얻은 추정량의 기댓값이다.
② 효율성(efficiency): 추정량의 분산이 작을수록 좋다.
③ 일치성(consistency): 표본의 크기가 아주 커지면, 추정값이 모수와 거의 같아진다.
④ 충족성(sufficient): 추정량의 모수에 대하여 모든 정보를 제공한다.
· 구간추정: 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것.
- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함
· 가설검정: 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
- 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.
- 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택 여부를 결정한다.
- 귀무가설(null hypothesis, H0 ): "비교하는 값과 차이가 없다"를 기본 개념으로 하는 가설
- 대립가설(alternative hypothesis, H1 ): 뚜렷한 증거가 있을 때 주장하는 가설
- 검정통계량(test statistic): 관찰된 표본으로부터 구하는 통계량. 검정 시 가설의 진위를 판단하는 기준
- 유의수준(significance level): 귀무가설을 기각하게 되는 확률의 크기로 "귀무가설이 옳은데도 이를 기각하는 확률의 크기"
- 기각역(critical region): 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준인 부분
- 제1종 오류(type 1 error): 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류
- 제2종 오류(type 2 error): 귀무가설이 옳지 않은 데도 귀무가설을 채택하게 되는 오류
- 두 가지 오류는 서로 상충관계가 있어서 일반적으로 가설검정에서는 제1종 오류의 크기를 0.1, 0.05, 0.01 등으로 고정시킨 뒤 제2종 오류가 최소가 되도록 기각역을 설정
• 비모수 검정
- 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다.
- 모수적 방법(parametic method): 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.
· 가설의 설정: 가정된 분포의 모수에 대해 가설을 설정한다.
· 검정 방법: 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.
- 비모수적 방법(non-parametic method): 자료가 추출된 모집단의 분포에 대한 아무 제약을 각하지 않고 검정을 실시하는 검정방법이다. 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다. 관측된 자료의 수가 많지 않거나 자료가 개체 간의 서열 관계를 나타내는 경우에 이용한다.
· 가설의 설정: 가정된 분포가 없으므로 가설은 단지 "분포의 형태가 동일하다" 또는 "분포의 형태가 동일하지 않다"와 같이 분포의 형태에 대해 설정한다.
· 검정 방법: 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정한다.
'ADsP 스터디' 카테고리의 다른 글
[모각코] day9 8/17 시계열분석 (0) | 2022.08.19 |
---|---|
[모각코] day8 8/13 기초 통계분석 (0) | 2022.08.14 |
[모각코] day6. 8/6 3과목 3장 데이터 마트 오답정리 (0) | 2022.08.06 |
[모각코] day5. 8/3 3과목 1장, 2장 R프로그래밍 기초 오답정리 (0) | 2022.08.03 |
[모각코] day4. 7/29 2과목 오답정리 (0) | 2022.07.31 |