[ADSP] 3과목 4장 통계분석 -1
통계분석의 이해
통계
- 특정집단을 대상으로 수행한 조사나 실험 결과에 대한 요약된 형태의 표현
- 조사대상에 따라 총조사, 표본조사 구분
통계자료의 획득 방법
총 조사 / 전수 조사
- 대상 집단 모두를 조사
- 시간과 비용 많이 소요
표본조사
- 대부분의 설문조사
- 모집단(population) : 조사하고자 하는 대상 집단 전체
- 원소(element) : 모집단을 구성하는 개체
- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야함
표본 추출 방법
- 단순랜덤 추출법(simple random sampling)
- 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법
- 각 샘플은 선택될 확률이 동일
- 비복원, 복원 추출로 나뉨
- 계통추출법(systematic sampling)
- 번호를 부여한 샘플을 나열하여 K개씩 (K=N/n) n개의 구간으로 나누고 첫 구간(1,2,…,K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본 선택
- 임의 위치에서 매 k번째 항목을 추출
- 집락추출법(cluster random sampling)
- 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후 모든 자료를 활용하거나 샘플링하는 방법
- 지역표본추출, 다단계표본추출
- 층화추출법(stratified random sampling)
- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본 추출
- 유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출
- 비례층화추출법, 불비례층화추출법
측정(measurement)
표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 측정방법
방법 | 설명 | 척도 |
---|---|---|
명목척도 | 측정 대상이 어느 집단에 속하는지 분류할 때 사용(성별, 출생지 구분) | 질적척도 |
순서척도 | 측정대상의 서열관계를 관측하는 척도(만족도, 선호도, 학년, 신용등급) | (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) |
구간척도(등간척도) | 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료(온도, 지수) | 양적척도 |
비율척도 | 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도(무게, 나이, 시간, 거리) | (수치형자료, 숫자들의 크기 차이를 계산 할 수 있는 척도) |
서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다.
구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다.
통계분석
정의
특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정
기술통계(descriptive statistic)
- 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미
통계적 추론(추측통계, inference statistics)
- sample을 통해 모집단을 추정하는 것
- 모수추정
- 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 추론
- 가설검정
- 대상집단에 대해 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부 결정
- 예측
- 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용
- 회귀분석, 시계열분석
확률 및 확률분포
확률
- 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고, 전체 확률의 합이 1인것
- 표본공간 $\Omega$의 부분집합인 사건 E의 확률은 표본공간이 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때, 다음과 같이 정의한다
$P(E) = \frac{n(E)}{n(\Omega)}$
- 표본공간
- 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
- 사건(event)
- 관찰자가 관심이 있는 사건으로 표본공간의 부분집합
- 원소(element)
- 나타날 수 있는 개별의 결과들을 의미
- 확률변수(random variable)
- 정의역(domain)이 표본공간, 치역(range)이 실수값(0<y<1)인 함수
- 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수(discrete random variable)와 연속형 확률변수(continuous random varialbe)로 구분
- 확률변수의 기대값
- 모분산 = 2차 적률 - 1차 적률^2
- 덧셈정리(배반이 아닐 때)
- 사건 A와 사건 B가 동시에 일어날 수 있을 때(교집합이 성립할 때), 일어날 확률 P(A 또는 B)는 P(A∪B) = P(A) + P(B) - P(A ∩ B)
-
사건 B가 주어졌을때 사건 A의 조건부 확률은 P(A B) = P((A ∩ B) / P(B)
- 덧셈정리(배반사건일 때)
- 사건 A와 사건 B가 동시에 일어나지 않을 때, 즉 사건 A 또는 사건 B 중 어느 한 쪽만 일어날 확률은 P(A∪B) = P(A) + P(B)
- 곱셈정리
- 사건 A와 B가 서로 무관하게 나타날 때, 즉 독립사건일때 A와 B가 동시에 나타날 확률은 P(A와 B)는 P(A ∩ B) = P(A) x P(B)
-
사건 B가 주어졌을 때 사건 A의 조건부 확률은 P(A B)=P(A)
확률분포
이산형 확률변수
- 0이 아닌 확률값을 갖는 확률변수를 셀 수 있는 경우(확률질량함수)
- 베르누이 확률분포(Bernoulli distribution)
- 결과가 두개만 나오는 경우
- ex) 야구 선수가 안타를 칠 확률
- 이항분포(Binomial distribution)
- 베르누이 시행을 n번 반복했을때 k번 성공할 확률
- ex) 야구선수가 오늘 경기에서 5번 타석에 들어와서 3번 안타를 칠 확률
- 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워짐
- p가 1/2에 가까우면 종모양이 됨
- 기하분포(Geometric distribution)
- 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
- ex) 야구선수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타를 칠 확률
- 다항분포(Multinomial distribution)
- 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
- 포아송분포(Poisson distribution)
- 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
- ex) 책에 오타가 5page 당 10개씩 나온다고 할때, 한 페이지에 오타가 3개 나올 확률
- ex) 야구선수가 최근 5경기에서 10개의 홈런을 때렸다고 할 때, 오늘 경기에서 홈런을 못 칠 확률은 포아송분포를 따름
연속형 확률변수
- 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수)
- 균일분포(일양분포, Uniform distribution)
- 모든 확률변수 X가 균일한 확률을 가지는 확률분포(다트의 확률분포)
- 정규분포(Normal distribution)
- 평균이 $\mu$이고, 표준편차가 $\sigma$인 x의 확률밀도 함수
- 지수분포(Exponential distribution)
- 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
- ex) 전자레인지의 수명시간, 콜센터에 전화가 걸려올 때까지의 시간, 은행에 고객이 내방하는데 걸리는 시간, 정류소에서 버스가 올 때까지의 시간
- t-분포(t-distribution)
- 평균이 0을 중심으로 좌우가 동일한 분포를 따름
- 표본의 크기가 적을때는 표준정규분포를 위에서 눌러 높은 것과같은 형태를 보이지만 표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포
- 데이터가 연속형일 경우 활용
- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
- $x^2$-분포(chi-square distribution)
- 모평균과 모분산이 알려지지않은 모집단의 모분산에 대한 가설 검정에 사용
- 두 집단 간의 동질성 검정에 활용
- 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용
- F-분포(F-distribution)
- 두 집단간 분산의 동일성 검정에 사용
- 확률변수는 항상 양의 값만을 갖고 $x^2$ 분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워짐
추정과 가설검정
추정의 개요
- 확률표본(random sample)
- 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있다.
- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.
- 각 관찰값들은 서로 독립적이며 동일한 분포를 갖는다.
- 추정
- 표본으로부터 미지의 모수를 추측하는 것
- 추정은 점추정(point estimation)과 구간추정(interval estimation)으로 구분
- 점추정
- 모수가 특정한 값일 것이라고 추정
- 표본의 평균, 중위수, 최빈값 사용
- 점추정량의 조건
- 불편성: 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
- 효율성: 추정량의 분산이 작을수록 좋음
- 일치성: 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
- 충족성: 추정량은 모수에 대하여 모든 정보를 제공
- 표본평균: 모집단의 평균을 추정하기 위한 추정량, 확률표본의 평균값
- 표본분산: 모집단의 분산을 추정하기 위한 추정량
- 구간추정
- 모수가 특정한 구간에 있을 것이라고 선언
- 추정량의 분포에 대한 전제가 주어져야하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함
- 모분산을 알때는 분자에 $sigma$를 넣고, 모분산을 모를때는 분자에 s를 넣음
가설검정
- 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
- 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정
- 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부 결정
- 귀무가설(null hypothesis, H0)
- ‘비교하는 값과 차이가 없다, 동일하다’를 기본개념
- 대립가설(alternative hypothesis, H1)
- 뚜렷한 증거가 있을 때 주장하는 가설
- 검정통계량(test statistic)
- 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
- 유의수준(sifnificance level, α)
- 귀무가설을 기각하게 되는 확률의 크기
- 기각역(critical region, $C$)
- 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 α인 부분
- α의 크기를 0.05로 설정했다가 0.01로 줄인경우 β값은 어떻게 될까?
- 일반적으로는 증가
- α와 β값은 상충관계 있음
- 1종 오류 : 귀무가설 H0이 옳은데도 귀무가설을 기각
- 2종 오류 : 귀무가설 H0이 옳지 않은데도 귀무가설을 채택
비모수 검정
모수적 방법
검정하고자 하는 모집단의 분포에 대한 가정을하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
비모수적 방법
- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시
- 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용
- 관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용
모수적검정과 비모수검정의 차이점
- 가설의 검정
- 모수적 검정
- 가정된 분포의 모수에 대해 가설을 설정
- 비모수 검정
- 가정된 분포가 없으므로 단지 ‘분포의 형태가 동일하다’ 또는 ‘분포의 형태가 동일 하지 않다’와 같이 분포의 형태에 대해 설정
- 모수적 검정
- 검정 방법
- 모수적 검정
- 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
- 비모수 검정
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정
- 모수적 검정
비모수 검정의 예
- 부호검정
- 윌콕슨의 순위합검정
- 윌콕슨의 부호순위합검정
- 만-위트니의 U 검정
- 런검정
- 스피어만의 순위상관계수
기초 통계분석
기술통계(Descriptive statistics)
기술통계의 정의
- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것
- 자료를 요약하는 기초적 통계
통계량에 의한 자료정리
- 중심위치의 측도
- 자료(데이터)
- 표본평균(sample mean)
- 중앙값(median) : 자료를 크기순으로 나열할 때 중앙에 위치하는 자료
- n이 홀수인 경우 $\frac{(n+1)}{2}$
- n이 짝수인 경우 $\frac{n}{2}$ 번째 값과 $\frac{n}{2} + 1$ 번째 값의 평균
- 산포의 측도
-
대표적인 산포도(dispersion)는 분산, 표준편차, 범위 및 사분위수범위
- 분산
- 표준편차
- 사분위수 범위(interquartile range)
- 사분위수
- 제 1사분위수 = 25백분위수
- 제 2사분위수 = 50백분위수
- 제 3사분위수 = 75백분위수
- 백분위수(percentile)
- $\frac{(n-1)p}{100+1}$ 번째 값
- 변동계수(coefficient of variation)
- $V = \frac{S}{X}$
- 평균의 표준오차
- $SE(X) = \frac{S}{ \sqrt{n}}$
-
- 분포의 형태에 관한 측도
- 왜도
- 분포의 비대칭정도를 나타내는 측도
- m3 > 0
- 오른쪽으로 긴꼬리를 갖는 분포
- m3 = 0
- 좌우가 대칭인 분포
- m3 < 0
- 왼쪽으로 긴꼬리를 갖는 분포
- 첨도
- 왼쪽으로 긴꼬리를 갖는 분포
- 분포의 중심에서 뾰족한 정도를 나타내는 측도
- m4 > 0
- 표준정규분포보다 더 뾰족함
- m4 < 0
- 표준정규분포보다 덜 뾰족함
- m4 = 0
- 표준정규분포와 유사한 뾰족함
- 그래프를 이용한 자료정리
- 표준정규분포와 유사한 뾰족함
- 막대그래프
- 범주형으로 구분된 데이터(직업, 종교, 음식 등)을 표현, 범주의 순서를 의도에 따라 바꿀 수 있음
- 히스토그램
- 연속형으로 표시된 데이터(몸무게, 성적, 연봉 등)를 표현, 임의로 순서를 바꿀 수 없고 막대의 간격이 없음
히스토그램 생성
- 데이터의 수를 활용해서 계급의 수와 계급간격을 계산하여 도수분포표를 만들고 히스토그램 생성
- 계급의 수는 $2^k ≥ n$를 만족하는 최소의 정수 $\log_2{n}=k$에서 최소의 정수
- 계급의 간격은 (최대값 - 최소값)/계급수로 파악
- 계급 수와 간격이 변하면 히스토그램 모양이 변함
줄기-잎 그림(stem- and leaf plot)
데이터를 줄기와 잎의 모양으로 그린 그림
상자그림(Box plot)
다섯 숫자 요약을 통해 그림으로 표현
- 사분위수범위(IQR) : Q3-Q1
- 안울타리(inner fence) : Q1 - 1.5 X IQR 또는 Q3 + 1.5 X IQR
- 바깥울타리(outer fence) : Q1 - 3 X IQR 또는 Q3 + 3 X IQR
- 보통이상점(mild outlier) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료
- 극단이상점(extreme outlier) : 바깥울타리 밖의 자료
인과관계의 이해
용어
- 종속변수(반응변수, y)
- 다른 변수의 영향을 받는 변수
- 독립변수(설명변수, x)
- 영향을 주는 변수
- 산점도(scatter plot)
- 좌표평면 위에 점들로 표현한 그래프
- 산점도에서 확인할 사항
- 두 변수 사이의 선형관계(직선관계)가 성립하는가?
- 두 변수 사이의 함수관계(직선관계 또는 곡선관계)가 성립하는가?
- 이상값이 존재하는가?
- 몇 개의 집단으로 구분되는가?
공분산(covariance)
- 두 확률변수 X,Y의 방향의 조합(선형성)이다
- 공분산의 부호만으로 두 변수간의 방향성을 확인할 수 있다
- 공분산이 +이면 두 변수가 양의 방향성, -이면 두 변수는 음의 방향성
- X,Y가 서로 독립이면 Cov(X,Y) = 0
상관분석(Correlation Analysis)
상관분석 정의
- 두 변수 간의 관계의 정도를 알아보기 위한 분석방법
- 상관계수를 이용
상관관계 특성
상관계수 범위 | 해석 |
---|---|
0.7~1 | 강한 양의 상관 |
0.3~0.7 | 약한 양의 상관 |
0~0.3 | 거의 상관이 없음 |
0 | 상관관계가 존재하지 않음 |
-0.3~0 | 거의 상관이 없음 |
-0.7~-0.3 | 약한 음의 상관 |
-1~-0.7 | 강한 음의 상관 |
상관분석의 유형
구분 | 피어슨 | 스피어만 |
---|---|---|
개념 | 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식 | 서열척도인 두 변수들의 상관관계 측정 방식 |
특징 | 연속형 변수, 정규성 가정 대부분 많이 사용 |
순서형 변수, 비모수적 방법 순위를 기준으로 상관관계 측정 |
상관계수 | 피어슨(적률상관계수) | 순위상관계수(로우) |
상관분석을 위한 R코드
# 분산
var(x, y=NULL, na.rm= FALSE)
# 공분산
cor(x, y=NULL, use = "everything", method=c("pearson", "kendall", "spearman"))
# 상관관계
cor(x, y=NULL, use= "everything", method=c("pearson", "kendall", "spearman"))
# Hmisc 패키지의 rcorr 사용
rcorr(matrix(data명), type =c("pearson", "kendall", "spearman"))
상관분석의 가설 검정
- 상관계수가 0 이면 입력변수와 출력변수 사이에는 아무런 관계가 없음(귀무가설 r=0)
- t 검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우, 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있게 됨
댓글남기기