[ADSP] 3과목 오답노트
3과목 1장 데이터 분석개요
데이터마이닝에서 활용하는 평가 기준
- 정확도
- 정밀도
- 디텍트 레이트
- 리프트
시뮬레이션을 평가하는 기준은
- Throughput
- Average Waiting Time
- Average Queue Length
- Time in System
추론 통계
추론(추측)통계는 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관한 통계적으로 추론하는 절차
EDA의 4가지 주제
- 저항성의 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
공간분석
공간적 차원과 관련된 속성들은 시각화에 추가하여 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는 분석방법
3과목 3장 데이터 마트
cast 함수
ID와 Variable에 대해 Time의 Value를 확인한다면
cast(md, id + variable ~ time)
melt 함수
id는 month와 day이고 variable별로 value값을 나타내고 NA값 제외한다면
melt(airquality, id = c("month","day"), na.rm=TRUE)
ddply 함수
각 feed별 weight의 평균을 계산하기 위해서는 ~feed, summarize, mean 포함
ddply(chickwts, ~feed, summarize, groupmean = mean(weight))
다중대치법 순서
- 대치(Imputation)
- 분석(Analysis step)
- 결합(Combination step)
plyr 패키지
- 데이터를 분할하고 분할된 결과에 함수를 적용한 뒤 결과를 재조합하는 함수 포함
- multi-core 사용
ESD
평균으로부터 t standard deviation 이상 떨어져 이쓴 값들을 이상값(outlier)로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘
3과목 4장 통계분석
표본추출방법
- 단순랜덤추출법
- 계통추출법
- 집락추출법
- 층화추출법
구간추정
구간추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것이지만, 실제 모집단의 모수가 신뢰구간에 꼭 포함되어있는것은 아니다
p-value
p-value는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률
모분산의추론
- 정규모집단으로부터 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 카이제곱분포를 따른다
- 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 추론의 대상이 됨
- 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다
- 이 표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다
추정과 가설검정
- p-value는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제확률
- 검정력이란 대립가설이 맞을 때 그것을 받아들이는 확률
비모수적 방법
- 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용된다
- 분포에 모수에 대한 가설을 설정하지 않고 분포의 형태에 대해 가설을 설정한다
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정한다
피어슨 상관계수 vs 스피어만 상관계수
- 피어슨
- 연속형
- 정규성
- 스피어만
- 순서형
- 비모수적
다중회귀모형
F 통계량을 확인함으로 추정된 다중회귀모형이 통계적으로 유의미한지 확인 할 수 있다
결정계수
- 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율
- 회귀모형에서 입력 변수가 증가하면 결정계수도 증가
- 다중 회귀분석에서는 최적 모형의 선정기준으로 결정계수 보다는 수정된 결정계수 값을 사용하는 것이 적절
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을때 그 값이 감소
데이터 정규성 확인하는 방법
- 히스토그램
- Q-Q plot
- Shapiro-Wilks test
Durbin Watson test 는 회귀모형 오차항의 자기상관이 있는지에 대한 검정
최적회귀방정식을 선택하는 방법
- 가능한 범위 내에서 적은 수의 설명변수 포함
- AIC나 BIC 값이 가장 작은 모형을 선택하는 방법으로 모든 가능한 조합의 회귀분석 실시
- 전진선택법은 설명변수를 추가했을 때 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가
시계열을 구성하는 4가지 요소
- 계절요인
- 순환요인
- 추세요인
- 불규칙요인
시계열 데이터의 분석 절차
- 시간 그래프 그리기
- 추세와 계절성을 제거하기
- 잔차를 예측하기
- 잔차에 대한 모델 적합하기
- 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기
lasso 회귀모형
- 모형에 포함된 회귀계수들의 절대값의 크기가 클수로 penalty를 부여하는 방식
- 자동적으로 변수선택
- Lambda 값으로 penalty 정도 조정
- L1 penalty 사용
다차원 척도법
- 계량적 다차원 척도법 -> 비율, 구간척도
- 비계량적 다차원 척도법 -> 순서척도
계통추출방법
번호로 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출방법
시계열
- 정상시계열 - 시점에 상관없이 시계열의 특성이 일정하다는 의미
- 자기회귀모형 - 시계열 모델 중 자기 자신이 과거 값을 사용하여 설명
- 분해시계열 - 상시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
회귀모형 결정계수 계산
- $\frac{SSR}{SSR+SSE}$
- 회귀결과에서 위에서를 위에거 더하기 오차값한걸로 나눈것
3과목 5장 정형 데이터 마이닝
홀드아웃
- 데이터의 양이 충분하지 않거나 입력변수에 대한 설명이 충분한 경우에 사용하는 모형평가 방법
- 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법
%Captured Response
- 전체에서 해당집단을 분리해내는 비율
- score에 따라 고객을 10개 집단으로 구분하고, 집단이 누적됨에 따라 전체 재구매 고객 대비 Percentile별 누적 구매 고객의 비율을 나타냄
- 특정 범수의 고객에게 Action을 수행할 경우, 실제반응이 나타난 고객 중 몇 %의 고객을 확보할 수 있는지에 대한 수치로 해석
- 해당집단에서 목표변수의 특정범주 빈도 / 전체 목표변수의 특정범주 빈도 x 100
배깅
- 주어진 자료에서 여러 개의 붓스트랩 자료 생성
- 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형 만듬
앙상블기법
- 배깅
- 부스팅
- 랜덤포레스트
앙상블모형에 대한 설명
- 부스팅은 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
- 랜덤포레스트는 의사결정나무모형의 특징인 분산이 크다는 점을 고려하여 배깅보다 더 많은 무작위성을 추가한 방법으로 약한 학습기들을 생성하고 이를 선형 결합해 최종 학습기를 만드는 방법
- 앙상블모형은 훈련을 한 뒤 예측을 하는데 사용하므로 교사학습법
평가지표
- 재현율
- 실제 True인 관측치 중에서 True로 예측한 것의 비율
- 모형의 완정성을 평가하는 지표
- 민감도와 동일
- F1
- 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 만들어 낸 지표
활성함수
- Step
- Sign
- Sigmoid
- Linear
- softmax
- 출력값이 여러 개, 다범주의 사후 확률
신경망모형
- 활성화함수를 이용해 출력을 결정하며 입력신호의 가중치 합을 계산하여 임계값과 비교
- 입력변수의 속성에 따라 활성화함수 선택하지 않음
- 역전파 알고리즘은 신경망 모형의 목적함수를 최적화하기위해 사용
- 연결강도를 갱신하기 위해서 예측된 결과와 실제값의 차이인 에러를 통해 가중치를 조정하는 방법
- 변수의 수가 많거나 입출력 변수 간에 복잡한 비선형관계가 존재할 때 유용
- 잡음에 대해서도 민감하게 반응하지 않음
dist 함수에서 지원하는 거리 측도
- 유클리디안 거리
- 공통으로 점수를 매긴 항목의 크기를 통해 판단하는 측도
- 표준화 거리
- 마할라노비스 거리
- 변수의 표준편차와 더불어 변수 간 상관성까지 고려한 거리측도
- 체비셰프 거리
- 맨하탄 거리
- 캔버라 거리
- 민코우스키 거리
나이브 베이지안 분류
베이즈 정리와 특징에 대한 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘
softmax 함수
표준화 지수함수로 불리며, 출력값 z가 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수
EM 알고리즘
혼합모형의 모수와 가중치의 최대가능도추정에 사용되는 알고리즘
실루엣
군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도와 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표
BMU(Best Matching Unit)
SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어
향상도곡선
- 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프
- 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단
댓글남기기