[ADSP] 모의고사 오답노트
21회
데이터베이스 설계 절차
요구사항분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계
BI와 비교하여 빅데이터 분석에 대한 키워드
information, Ad hoc Report, Alerts, Clean Data
분석과제 우선순위 평가
- 시급성 : 전략적 중요도, 목표가치
- 난이도 : 데이터획득/저장/가공비용과 분석 적용 비용, 분석수준
부호검정
- 비모수 검정 방법 중 하나
- 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설 검증
스피어만 상관계수
- 서열척도인 두 변수들의 상관관계 측정방식
- 순위를 기준으로 상관관계 측정
- 비모수적 방법
- 한 변수를 단조 증가 함수로 변환하여 다른 변수를 나타낼 수 있는 정도를 나타냄
- 두 변수의 선형 관계의 크기 뿐만 아니라 비선형적인 관계도 나타낼 수 있음
범주불균형 문제
분류 모형을 구성하는 경우 예측 실패의 비용이 큰 분류 분석의 대상에 대한 관측치가 현저히 부족하여 모형이 제대로 학습되지 않는 문제가 발생
$F_\beta$
$F_\beta$ 에서 베타가 2인 경우에는 재현율에 2배만큼의 가중치를 부여하여 조화평균을 하는 것을 의미
Min-Max 정규화
원데이터의 분포를 유지하면서 [0,1]의 값을 가지도록 정규화하는 방법
다차원척도법
여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법
와드연결법
군집내의 오차제곱합에 기초하여 군집을 수행
향상도
연관규칙의 측정 지표 중 도출된 규칙의 우수성을 평가하는 기준으로 두 품목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표
22회
데이터 분석 방법론의 구성요소
- 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
하향식 접근법의 과제 도출 단계
- Problem Discovery(문제 탐색)
- Problem Definition(문제 정의)
- Solution Search(해결방안 탐색)
- Feasibility Study(타당성 평가)
K-평균군집 수행 절차
- 초기 (군집의) 중심으로 k개의 객체를 임의로 선택한다
- 각 자료를 가장 가까운 군집 중심에 할당한다
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 업데이트한다
- 군집 중심의 변화가 거의 없을 때(또는 최대 반복 수)까지 단계2와 단계3을 반복한다
기울기 소실 문제
다층 신경망 모형에서 은닉층의 개수를 너무 많이 설정하게 되면 역전파 과정에서 앞쪽 은닉층의 가중치 조정이 이루어지지 않아 신경망의 학습이 제대로 이루어지지 않는 현상
ISP
정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내, 외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차
배깅
원 데이터 집합으로부터 크기가 같은 표본을 여러 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 알상블 하는 방법
ESD
이상값 탐색 기법 중 하나로 평균으로부터 k*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하는 방법
포아송분포
이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포
23회
빅데이터 거버넌스
- ERD는 운영 중인 데이터베이스와 일치하기 위하여 철저한 변경관리 필요
- 빅데이터 거버넌스는 사업분야별, 데이터 유형별, 정보 거버넌스 요소벼로 구분하여 작성
- 단순히 데이터를 수집하는 것보다 어떤 목적으로 어떤 데이터를 어떻게 활용할 것인가가 더욱 중요
- 데이터 양의 급증으로 데이터의 생명 주기 관리방안을 수립하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면할 수 있음
- 데이터 거버넌스와 차이점
- 데이터 생명주기 관리
- 빅데이터의 효율적인 관리
- 다양한 데이터의 관리체계
- 데이터 최적화
- 정보보호
- 데이터 카테고리별 관리 책임자 지정
은닉층 노드의 수
- 너무 적으면 -> 네트워크의 복잡한 이사결정 경계를 만들 수 없음
- 너무 많으면 -> 네트워크의 일반화가 어려움
불순도 측도
- 카이제곱 통계량의 p-value는 그 값이 작을수록 자식 노드 내의 이질성이 크다는 것을 나타냄
- 지니 지수 값이 클수록 이질적이며 순수도가 낮음
- 엔트로피 지수지수가 가장작은 변수와 이 때의 최적분리에 의해 분할 수행
- 분산의 감소량을 최대화하는 기준의 최적분리에 의해서 자식마디 형성
Leaf-wise node
lgbm은 트리 기반의 학습 알고리즘은 gradient boosting 방식의 프레임워크로 Leaf-wise알고리즘 사용
Regression tree 분류기준
분산분석에서의 F-통계량, 분산 감소량
분석적 기업 진단
도입 -> 활용 -> 확산 -> 최적화
Gradient Vanishing
Hidden Layer를 많이 거칠수록 전달되는 오차가 크게 줄어들어 학습이 되지 않는 현상
역전파 과정에서 입력층으로 갈수록 기울기가 점차적으로 작아지는 현상
댓글남기기