9 분 소요

분석기획 방향성 도출

분석기획의 특징

분석기획이란?

  • 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
  • 어떠한 목표(What)를 달성하기 위하여(Why) Why가 왜 갑자기 나오징 🙄 어떠한 데이터를 가지고 어떤 방식으로(How)를 수행할 지에 대한 일련의 계획을 수립하는 작업

데이터 사이언티스트의 역량

데이터 사이언티스트는 수학/통계학적 지식, 정보기술(IT기술, 해킹기술, 통신기술 등), 해당 비즈니스에 대한 이해와 전문성의 3가지 영역에 대한 고른 역량이 요구된다.

분석 대상과 방법

분석은 분석의 대상(What)분석의 방법(How) 에 따라서 4가지로 나누어진다.

  분석의 대상(What)    
Known Un-Known    
Optimization Insight Known 분석의 방법(How)
Solution Discovery Un-Known  

목표 시점 별 분석 기획 방안

  • 당면한 과제를 빠르게 해결하는 “과제 중심적인 접근 방식”
  • 지속적인 분석 내재화를 위한 “장기적인 마스터 플랜 방식”
당면한 분석 주제의 해결(과제 단위)   지속적 분석 문화 내재화(마스터 플랜 단위)
Speed&Test <-1차 목표-> Accuracy&Deploy
Quick&Win <-과제의 유형-> Long Term View
Problem Solving <-접근 방식-> Problem Definition

의미있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하고 분석대상 및 방식에 따른 다양한 분석 주제를 도출할 수 있어야한다.(과제단위 or 마스터 플랜 단위)

분석 기획시 고려사항

  • 가용데이터(Available data)에 대한 고려가 필요
    • 분석을 위한 데이터 확보가 우선, 데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야함
  • 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색 필요
    • 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요
  • 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립 필요(Low Barrier Of Execution)
    • 조직의 역량으로 내재화 되기 위해 교육 및 활용방안 등의 변화 관리가 고려되어야함

분석 방법론

분석 방법론 개요

개요

  • 데이터 분석이 효과적으로 정착하기 위해서는 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적이다.
  • 방법론은 절차(Procedures), 방법(Method), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&Outputs)로 구성되어 활용이 가능해야 한다.

합리적 의사결정을 가로막는 장애요소

고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing Effect: 문제의 표현방식에 따라 개인의 판단이나 선택이 달라질 수 있는 현상) 등

방법론의 생성과정

img

적용 업무의 특성에 따른 모델

  1. 폭포수 모델(Waterfall Model)
    • 단계를 순차적으로 진행하는 방법
    • 이전단계가 완료되어야 다음 단계로 진행
    • 문제 발견시 피드백 과정 수행
    • 기존 IT의 SW개발 방식
  2. 프로토타입 모델(Prototype Model)
    • 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 제공
    • 시험 사용 후 결과를 통한 개선 작업을 시행하는 모델
  3. 나선형 모델(Spiral Model)
    • 반복을 통해 점증적으로 개발
    • 처음 시도하는 프로젝트에 용이하지만 관리 체계를 갖추지 못한경우 복잡도 상승

방법론의 구성

  • 단계
    • 최상위 계츨, 단계별 산출물이 생성
    • 버전관리 등을 통하여 통제
  • 태스크
    • 단계를 구성하는 단위 활동
    • 물리적 또는 논리적 단위
    • 품질검토의 항목
  • 스탭
    • WBS(Work Breakdown Structure)의 워크 패키지에 해당
    • 입력자료(Input), 처리 및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스

KDD 분석 방법론

개요

프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기위해 정리한 데이터 마이닝 프로세스

KDD 분석 절차

  1. 데이터셋 선택(Selection)
    • 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
    • 데이터 마이닝에 필요한 목표데이터를 구성
  2. 데이터 전처리(Preprocessing)
    • 데이터 셋에 포함되어있는 잡음(Noise)와 이상치(Outlier), 결측치(Missing Value)를 식별하고 재처리하여 데이터 셋을 정제하는 단계
    • 추가로 요구되는 데이터 셋이 필요한경우 데이터셋 선택을 재실행
  3. 데이터 변환(Transformation)
    • 분석 목적에 맞게 변수 설정, 데이터 차원 축소
    • 학습용 데이터(training data)와 검증용데이터(test data)로 데이터 분리
  4. 데이터 마이닝(Data Mining)
    • 데이터마이닝 기법을 선택하고 작업을 실행
    • 필요에 따라 전처리와 변환 프로세스 추가로 실행
  5. 데이터 마이닝 결과 평가(Interpretation/Evaluation)
    • 데이터마이닝 결과에 대한 해석과 평과, 분석 목적과의 일치성 확인
    • 지식을 업무에 활용하기 위한 방안 마련
    • 필요에 따라 앞선 프로세스 반복 수행

CRISP-DM 분석 방법론

개요

주요한 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도하였고, 계층적 프로세스 모델로써 4개 레벨로 구성

CRISP-DM의 4레벨 구조

  • 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함
  • 일반화 태스크는 데이터마이닝의 단일 프로세스를 수행하는 단위이며, 세분화 태스크(Specialized Tasks)로 구성
    • ex) 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성
  • 마지막 레벨인 프로세스 실행(process instances)은 데이터마이닝을 위한 구체적인 실행 포함

CRISP-DM의 프로세스

CRISP-DM의 프로세스는 6단계로 구성되어 있으며, 각 단계는 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어있음

  1. 업무이해(Business Understanding)
    • 비즈니스 관점에서 프로젝트의 목적과 요구사항 이해
    • 도메인 지식을 데이터 분석을 위한 문제정의로 변경
    • 초기프로젝트 계획 수립
    • 수행업무
      • 업무 목적 파악
      • 상황 파악
      • 데이터 마이닝 목표 설정
      • 프로젝트 계획 수립
  2. 데이터 이해(Data Understanding)
    • 데이터 수집, 데이터 속성 이해
    • 데이터 품질에 대한 문제점 식별 및 인사이트 발견
    • 수행업무
      • 초기 데이터 수집
      • 데이터 기술 분석
      • 데이터 탐색
      • 데이터 품질 확인
  3. 데이터 준비(Data Preparation)
    • 분석기법에 적합한 데이터를 편성하는 단계
    • 수행업무
      • 분석용 데이터 셋 선택
      • 데이터 정제
      • 분석용 데이터 셋 편성
      • 데이터 통합
      • 데이터 포맷팅
  4. 모델링(Modeling)
    • 모델링 기법과 알고리즘 선택
    • 파라미터 최적화
    • 모델링 결과를 테스트용 데이터 셋으로 평가하여 과적합(Over-fitting) 문제 확인
    • 수행업무
      • 모델링 기법 선택
      • 모델 테스트 계획 설계
      • 모델 작성
      • 모델 평가
  5. 평가(Evaluation)
    • 모델링 결과가 프로젝트 목적에 부합하는지 평가
    • 수행업무
      • 분석결과 평가
      • 모델링과정 평가
      • 모델 적용성 평가
  6. 전개(Deployment)
    • 완성된 모델을 실 업무에 적용하기 위한 계획 수립
    • 모니터링과 유지보수 계획 마련
    • CRISP-DM의 마지막 단계
    • 수행업무
      • 전개 계획 수립
      • 모니터링과 유지보수 계획 수립
      • 프로젝트 종료보고서 작성
      • 프로젝트 리뷰

KDD와 CRISP-DM의 비교

KDD CRISP-DM
분석대상 비즈니스 이해 업무이해(Business Understanding)
데이터셋 선택(Data Selection) 데이터 이해(Data Understanding)
데이터 전처리(Preprocessing)  
데이터 변환(Transformation) 데이터 준비(Data Preparation)
데이터 마이닝(Data Mining) 모델링(Modeling)
데이터 마이닝 결과 평가(Interpretation/Evaluation) 평가(Evaluation)
데이터 마이닝 활용 전개(Deployment)

빅데이터 분석 방법론

빅데이터 분석의 계층적 프로세스

  1. 단계(Phase)
    • 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
    • 각 단계는 기준선(Baseline)으로 설정되어 관리
    • 버전관리(Configuration Management)등을 통하여 통제
  2. 태스크(Task)
    • 각 단계는 여러 개의 태스크로 구성
    • 태스크는 단계를 구성하는 단위활동
    • 물리적 또는 논리적 단위로 품질 검토의 항목
  3. 스탭(Step)
    • WBS(Work Breakdown Structure)의 워크 패키지에 해당
    • 입력자료(Input), 처리 및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)

빅데이터 분석 방법론 - 5단계

  1. 분석기획(Planning)
    • 비즈니스 도메인과 문제점을 인식
    • 분석 계획 및 프로젝트 수행계획 수립
    • 프로젝트 위험계획 수립
  2. 데이터 준비(Preparing)
    • 필요 데이터 정의
    • 데이터 스토어 설계
    • 데이터 수집 및 정합성 점검
  3. 데이터 분석(Analyzing)
    • 분석용 데이터 준비
    • 텍스트 분석
    • 탐색적 분석
    • 모델링
    • 모델 평가 및 검증
    • 모델 적용 및 운영방안 수립
  4. 시스템 구현(Developing)
    • 설계 및 구현
    • 시스템 테스트 및 운영
    • 프로토타입 시스템 구현
  5. 평가 및 전개(Lesson Learned)
    • 모델 발전계획 수립
    • 프로젝트 평가 및 보고

단계별 세부단계 및 실제 업무

… 정리하기 너무 길고 많다… 책을 꼭 볼 것 !!!!!!!!!!!!!!!
까먹을까봐 적어놓음 ㅎ

분석 과제 발굴

분석과제 발굴 방법론

개요

분석과제를 도출하기 위한 방식으로는 크게 하향식 접근방법(Top Down Approach)상향식 접근 방법(Bottom up Approach)이 있다.
쵲거의 의사결정은 두 접근 방식이 상호 보완 관계에 있을때 가능하다.

다운로드

하향식 접근법(Top Down Approach)

1. 문제 탐색(Problem Discovery)단계

  • 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하는 것이 중요
  • 기준 모델로는 비즈니스 모델(기업 내, 외부 환경을 포괄)과 외부 참조 모델이 존재
  • 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요(세부적인 구현에 초점 X)
비즈니스 모델 기반 문제 탐색

비즈니스모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴하고, 이를 관리하는 두가지의 영역인 규제와 감사, 지원 인프라 영역에 대한 기회를 추가로 도출하는 작업을 수행
새로운 유형의 분석 기회 및 주제 발굴 수행

과제발굴방법 내용
업무(Operation) 내부 프로세스 및 주요 자원관련 주제 도출 생산 공정 최적화, 재고량 최소화
제품(Product) 제품, 서비스를 개선하기 위한 관련 주제 도출 제품의 주요기능 개선, 서비스 모니터링 지표도출
고객(Customer) 사용자 및 고객, 제공하는 채널의 관점에서 관련 주제 도출 고객 Call 대기 시간 최소화, 영업점 위치 최적화
규제와 감사(Regualtion&Audit) 규제 및 보안의 간점에서 주제 도출 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출
지원 인프라(IT&Human Resources) 운영, 관리하는 인력의 관점에서 주체 도출 EDW 최적화, 적정 운영 인력 도출
분석 기회 발굴의 범위 확장
  1. 거시적 관점의 메가트랜드
    • 조직 및 해당 산업에 폭넓게 영향을 미치는 사회, 경제적 요인을 STEEP으로 요약되는 Social(사회), Technological(기술), Economic(경제), Environmental(환경), Political(정치) 영역으로 폭넓게 나눔
    • 사회
      • 사회적, 문화적, 구조적 트렌드 변화에 기반한 분석 기회 도출
    • 기술
      • 변화에 따른 역량 내 재화와 제품, 서비스 개발에 대한 분석 기회 도출
    • 경제
      • 산업과 금융 전반의 변동성 및 경제 구조 변화동향에 대한 분석 기회 도출
    • 환경
      • 환경과 관련된 정부, 사회단체, 시민사회의 관심과 규제 동향에 대한 분석 기회 도출
    • 정치
      • 주요 정책방향, 정세, 지정학적 동향를 토대로한 분석 기회 도출
  2. 경쟁자 확대 관점
    • 직접 경쟁사 및 제품, 서비스뿐만 아니라 대체재와 신규 진입자 등으로 관점을 확대
  3. 시장의 니즈 탐색 관점
    • 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널(Channel) 및 영향자들(Influencer)에 대한 폭넓은 관점을 바탕으로 분석 기회 탐색
  4. 역량의 재해석 관점
    • 현재 기업이 보유한 역량뿐만 아니라 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 분석 기회 탐색
외부참조 모델기반 문제탐색

유사, 동종 사례 벤치마킹을 통한 분석기회 발굴은 “Quick&Easy”방식으로 필요한 분석기회에 대한 아이디어를 얻고, 브레인스토밍을 통해 빠르게 도출하는 방법

분석 유즈 케이스(Analytics Use Case)

풀어야 할 문제에 대한 설명 및 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용

2. 문제정의(Problem Definition)단계

  • 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
  • 앞서 수행한 단계가 무엇을(What) 어떤 목적으로(Why) 수행해야 하는지에 대한 관점이었다면 본 단계는 필요한 데이터 및 기법(How)를 정의하기 위한 단계
  • 데이터 분석 문제의 정의 및 요구사항
    • 분석을 수행하는 당사자뿐만 아니라 최종사용자 관점에서 이루어져야함
  • 정확하게 분석의 관점으로 문제를 재정의할 필요가 있음

3. 해결방안 탐색(Solution Search)단계

  • 데이터 분석 문제를 해결하기 위한 방안 모색
    • 단순한 보완으로 분석이 가능한지 고려
    • 엑셀 등의 간단한 도구로 분석이 가능한지 고려
    • 분산병렬처리를 통한 빅데이터 분석 도구를 통해 심도있는 방안 고려
  • 과제를 해결하는 방안에 대해 사전 검토 수행

4. 타당성 검토(Feasibility Study)

  • 다각적인 타당성 분석이 수행되어야 한다.
경제적 타당성

비용대비 편익 분석 관점의 접근 필요

데이터 및 기술적 타당성
  • 데이터 존재여부, 분석 시스템 환경, 분석 역량이 필요
  • 타당성 검토를 통해 도출된 대안을 통해
    • 평가 과정을 거쳐 가장 우월한 대안 선택
    • 도출한 데이터 분석 문제 및 선정된 솔루션 방안 포함
    • 분석과제 정의서의 형태로 명시
    • 프로젝트 계획의 입력물로 사용

상향식 접근법(Bottom up Approach)

정의

다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 일련의 과정

기존 하향식 접근법의 한계를 극복

  • 기존 하향식 접근법은 솔루션 도출에는 유효하지만 새로운 문제 탐색에는 한계가 있음
  • 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않음
  • 기존의 분석적으로 사물을 인식하려는 ‘Why’를 벗어나 사물을 있는 그대로 인식하는 ‘What’관점에서 봄
  • 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김(대상을 좀 더 잘 이해)

비지도 학습과 지도 학습

비지도 학습(Unsupervised Learning)
  • 일반적으로 상향식 접근방식의 데이터 분석은 비지도 학습에 의해 수행
  • 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태 표현(분석 목적 명확히 정의 X)
  • ex) 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링
지도 학습(Supervised Learning)
  • 명확한 목적 하에 데이터분석 실시
  • 분류, 추측, 예측, 최적화
  • 통계적 분석에서는 가설을 설정하고 검정
  • 빅데이터 환경에서는 인과관계 뿐만아니라 상관관계 분석 또는 연관 분석 실시
  • 다량의 데이터 분석을 통해서 “왜”그런 일이 발생하는지 역으로 추적(상향식 접근)

시행착오를 통한 문제 해결

정의
  • 프로토타이핑 접근법은 일단 분석을 시도해보고 결과를 확인해 반복적으로 개선해 나가는 방법
  • 하향식 접근방식은 문제가 정형화되어있고 문제해결을 위한 데이터가 완벽하게 존재할 경우 효과적
  • 이에 반하여 프로토타이핑 방법론은 문제를 명확하게 인식하고 필요한 데이터를 식별하고 구체화(완전하지는 못함)
  • 프로세스
    • 가설의 생성
    • 디자인에 대한 실험
    • 실제 환경에서의 테스트
    • 테스트 결과에서의 통합도출 및 가설 확인
프로토타이핑의 필요성
  1. 문제에 대한 인식 수준
    • 문제 정의가 불명확 -> 프로토 타입을 이용하여 문제 이해, 구체화
  2. 필요 데이터 존재 여부의 불확실성
    • 데이터가 존재하지 않을시 사용자와 분석가 간의 반복적이고 순환적인 협의 과정 필요
  3. 데이터 사용 목적의 가변성
    • 기존의 데이터 정의를 재검토(가치가 변할 수 있음)
    • 데이터 사용 목적과 범위 확대

분석과제 정의

분석과제 정의서를 통해 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 분석결과에 대한 검증 오너십, 상세 분석 과정 등을 정의

분석 프로젝트 관리 방안

분석과제 관리를 위한 5가지 주요영역

분석 프로젝트는 다른 프로젝트 유형처럼 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행 되어야 할 뿐만 아니라 아래의 5가지 속상을 추가적으로 고려해야함

  1. Data Size
    • 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립 필요
  2. Data Complexity
    • 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 필요
  3. Speed
    • 시나리오 측면에서의 속도 고려
    • 분석 모델의 성능 및 속도를 고려한 개발 및 테스트 수행
  4. Analytic Complexity
    • 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델을 찾는 방안 모색
    • 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워짐 -> 기준점 정의
  5. Accuracy & Precision
    • Accuracy는 모델과 실제값 차이가 적다는 정확도 의미
    • Precision은 모델을 반복했을때 편차의 수준으로 일관적임을 의미
    • 활용성 측면에서는 Accuracy 중요, 안정성 측면에서는 Precision 중요

분석 프로젝트의 특성

  • 분석가의 목표
    • 분석 업무 수행뿐만 아니라 전반적인 프로젝트 관리 중요
  • 분석가의 입장
    • 데이터영역과 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역할
  • 분석 프로세스의 특성을 이해한 프로젝트 관리방안 수립이 중요
  • 분석 과제정의서를 기반으로 프로젝트를 시작하되 지속적인 개선 및 변경을 염두에 두고 기간 내에 최선의 결과를 도출할 수 있도록 플젝 구성원들과 협업하는 것이 특징

분석 프로젝트의 관리방안

이것도 너무 많아서 못적겠음 !!!!!!!!!!!!! 책을 보삼 !!!!!!!!!!!!!!

태그:

카테고리:

업데이트:

댓글남기기