프로그램_시스템/데이터

[ADsP] 빅데이터의 이해

9191 2026. 5. 13. 19:58

빅테이터

데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과한 규모의 데이터

 

3V

  • 데이터의 양(Volume)
  • 다양성(Variety)
  • 속도(Velocity)

+4V

  • Visualization(시각화)/Variability(가변성)

 

 

빅데이터 출현 배경

산업계

고객 데이터가 크게 축적되어 양이 늘어남에 따라 질도 높아졌다.

 

학계

빅데이터를 다루는 현상이 늘어나 발전하고 있다.

 

기술발전

저장 기술 발전, 관견 기술이 발달했다.

 

 

빅데이터의 기능

산업혁명의 석탄, 철

제조업뿐만이 아니라 서비스 분야의 생산성을 획기적으로 끌어올렸다.

 

21세기의 원유

경제 성장에 필요한 정보를 제공해 산업 전반의 생산성 향상

 

렌즈

현미경을 통해 생물학이 발전된 것처럼, 산업에 영향을 줄 것

 

플랫폼

다양한 서드파티 비즈니스에 활용되어 플랫폼 역할을 함

 

 

빅데이터로 인한 변화

  • 사전처리 → 사후처리
  • 표본조사 → 전수조사
  • 질 → 양
  • 인과관계 → 상관관계

 

 

빅데이터의 가치

이하 3가지의 영향에 따라 가치를 측정하기 어려워졌다.

  • 데이터 활용 방식: 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되어 특정 데이터 하나를 누가, 언제, 어떻게 활용하는지 파악할 수 없게 됨
  • 새로운 가치 창출: 데이터가 기존에 없던 가치를 창출해내 산정하기 어려움
  • 분석 기술 발전: 지금은 가치 없더라도 추후 새로운 분석 기법에 따라 큰 가치를 가질 수 있음

 

 

빅데이터의 활용 기본 테크닉

1. 연관규칙 학습 (Association rule learning)

     - 변수들 간 상관관계를 찾는 방법

2. 유형분석 (Classification tree analysis)

     - 어떠한 범주/분류인지 나누는 것

3. 유전 알고리즘 (Genetic algorithms)

     - 여러 과정을 반복하면서 방식을 최적화시키는 것

4. 기계학습 (Machine learning)

     - 훈련 데이터로부터 얻은 특성으로 예측, 범위가 넓음(딥러닝도 포함)

5. 회귀분석 (Regression analysis)

     - 원인과 결과로 분석

6. 감정분석 (Sentiment analysis)

     - 특정 주제를 언급하는 사람의 감정을 분석

7. 소셜 네트워크 분석 (SNA; Social Network Analysis)

     - 사회관계망 분석, 유저 사이 관계를 분석함. 영향력 있는 사람을 찾아내는 데 활용

 

 

위기요인

1. 사생활 침해

→ 개인정보 사용자의 책임으로 해결한다는 방안. 사용자에게 동의를 얻은 것보다는 데이터 사용자를 처벌하자.

 

2. 책임 원칙 훼손: 잠재적인 예측으로 오판을 일으킬 수 있음(범죄를 일으키지 않았는데, 범죄자 특성 가지고 있다고 이미지 훼손)

→ 성향이 아닌 행동 결과를 보고 처벌하자는 방안

 

3. 데이터 오용: 잘못된 인사이트를 얻어 사용하면 직접 손실을 얻을 수 있음

→ 알고리즘에 대한 접근권을 주어 부당함을 반증할 수 있는 방법을 명시할 것

→ 알고리즈미스트(Algorithmist)가 필요하게 됨

 

 

빅데이터 활용의 3요소

  • 데이터
  • 기술
  • 인력

 

비식별 기술 종류

더보기

데이터 마스킹: *** 등으로 모자이크

가명처리: 가명으로 바꾸는 기술. 일정한 규칙이 노출되지 않도록 주의.

총계처리: 총합 또는 평균으로 표기

데이터값 삭제: 필요없거나 개인 식별에 중요한 값 삭제

데이터 범주화: 데이터 값을 범주화시켜 특정 값 숨기기

 

 

인사이트

이번 챕터부터 확실히 데이터를 이해하고 활용하는 방법을 알아가고 있는 느낌이 든다.

빅테이터 분석과 전략 인사이트 쪽은 이미 인지하고 있는 문제이기도 하고, PM으로서 데이터 분석하는데 중요한 문제가 아니라고 생각해 생략하였다.

데이터를 어떤 식으로 활용해야 하는지 생각을 할 수 있게 하는 정보들이라서 좋았다. 이런 지식이 있다면 데이터 분석 시 좀 더 깊은 통찰이 가능할 것이다.