2 분 소요

빅데이터의 이해

빅데이터는 기존 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합이다.

3V

데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity) 3가지 측면의 급증으로 인한 현상.

관점의 범위에 따른 정의

데이터 변화 기술 변화 인재, 조직변화
3V(규모, 형태, 속도) 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처 Data Scientist 같은 새로운 인재

각각 좁은 범위, 중간 범위, 넓은 관점으로 정의하는 방식이다.
최근에는 가치(Value), 시각화(Visualization), 정확성(Veracity)를 포함한 4V의 개념이 생성되고 있다.

빅데이터의 기능

빅데이터에 거는 기대를 표현한 비유는 다음과 같다.

  • 산업혁명의 석탄, 철
    • 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으으로 기대된다.
  • 21세기의 원유
    • 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
  • 렌즈
    • 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다.
  • 플랫폼
    • 공동 활용의 목적으로 구축된 유무형의 구조물

빅데이터가 만들어 내는 변화

  1. 사전처리 -> 사후처리
    • 정해진 특정한 정보만 처리하는 것이 아닌, 많은 데이터를 모으고 그 데이터를 조합해 숨은 정보를 찾아냄
  2. 표본조사 -> 전수조사
    • 샘플링이 주지 못하는 패턴이나 정보를 얻을 수 있는 전수조사로 변화
  3. ->
    • 모든 데이터를 활용할 때, 훨씬 더 많은 가치를 추출할 수 있다는 관점
  4. 인과관계 -> 상관관계
    • 데이터 기반의 상관관계 분석이 주는 인사이트가 미래 예측을 점점 더 압도해 가는 시대 도래

빅데이터의 가치와 영향

빅데이터의 가치

  • 데이터 활용 방식: 재사용, 재조합, 다목적용 개발
  • 새로운 가치 창출
  • 분석 기술 발전: 클라우드 분산 컴퓨팅과 새로운 분석 기법의 등장으로 가치 없는 데이터도 거대한 가치를 만들어낼 가능성이 높아짐

빅데이터의 영향

빅데이터가 시장에 미치는 영향

  • 기업: 혁신과 경쟁력, 생산성 향상
  • 정부: 환경 탐색, 상황분석, 미래대응
  • 개인: 목적에 따라 활용

비즈니스 모델

빅데이터 활용 기본 테크닉

  • 연관규칙 학습 (Association rule learning)
    • 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
    • ex) A를 구매한 사람이 B를 더 많이 사는가?
  • 유형분석 (Classification tree analysis)
    • 새로운 사건이 속하게 될 범주를 찾아내는 일
    • ex) 이 사용자가 어떤 특성을 가진 집단에 속하는가?
  • 유전 알고리즘 (Genetic algorithm)
    • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
    • ex) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송
  • 기계학습 (Machine Learning)
    • 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는데 초점
    • ex) 넷플릭스 영화 추천알고리즘
  • 회귀분석 (Regression analysis)
    • 독입변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악
    • ex) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
  • 감정분석 (Sentiment analysis)
    • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
    • ex) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
  • 소셜 네트워크 분석 (Social network analysis)
    • 영향력있는 사람을 찾아낼 때 사용
    • ex) 고객들 간 관계망은 어떻게 구성되어 있나?

    위기 요인과 통제 방안

    빅데이터 시대의 위기 요인

    1. 사생활 침해
      • 개인정보가 포함된 데이터를 목적 외에 활용할 경우 위협으로 변형
    2. 책임 원칙 훼손
      • 분석대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 증가
    3. 데이터 오용
      • 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 항상 맞을 수는 없음

    위기 요인에 따른 통제 방안

    1. 동의에서 책임으로
      • 개인정보 제공자의 동의에서 개인정보 사용자의 책임으로 해결
    2. 결과 기반 책임 원칙 고수
      • 예측 자료에 의한 불이익을 당할 가능성을 최소화
    3. 알고리즘 접근 허용
      • 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법 공개

    미래의 빅데이터

    빅데이터 활용의 3요소

    빅데이터 활용의 기본 3요소는 다음과 같다.

    1. 데이터
      • 모든 것을 데이터화하는 현 추세로 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다.
    2. 기술
      • 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다.
    3. 인력
      • 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다.

태그:

카테고리:

업데이트:

댓글남기기