프로그램_시스템/데이터

[ADsP] 데이터 탐색

9191 2026. 6. 1. 15:26

데이터 마트

데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터를 주제별, 부서별로 추출해 모은 비교적 작은 규모의 데이터 웨어하우스

 

https://velog.io/@inhwa1025/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A7%88%ED%8A%B8%EB%9E%80-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A0%88%EC%9D%B4%ED%81%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%8A%A4%EC%99%80%EC%9D%98-%EC%B0%A8%EC%9D%B4%EC%A0%90-Data-Mart-Data-Lake-Data-WareHouse

 

데이터 마트로 분리하면 시간/공간 효율성을 기대할 수 있다.

 

데이터 전처리

데이터 마트에 데이터를 수집·변형·적재하고 난 후에는 전처리 단계를 거쳐야 한다.

 

데이터 정제 과정: 결측값과 이상값 처리

분석 변수 처리 과정: 변수 선택, 파생변수 생성 등

 

 

요약변수

  • 원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수(합계, 평균, 횟수, 여부 등)
  • 공통적으로 사용될 수 있어 재활용성 높음

 

파생변수

  • 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미(목적)를 부여한 변수
  • 주관적일 수 있어 논리적 타당성이 필요

 

데이터 탐색

탐색적 데이터 분석(EDA)

데이터를 본격 분석하기 전에 데이터의 대략적인 특성을 파악하고 의미 있는 관계를 찾아내기 위해 다각도로 접근하는 것

 

결측값: 데이터셋에서 특정값이 없는 상태

이상값: 일반적인 데이터 분포에서 벗어난 값

 

 

자주 사용하는 함수

  • head / tail
    • 시작 또는 마지막 6개 record 조회
    • head(,) 숫자를 통해 원하는 개수만큼 확인 가능
  • summary
    • 수치형 변수: 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수
    • 병목형 변수[각주:1]: 명목값, 데이터 개수

 

결측값

NA(Not Available), 공백, null, 99999999, -1 등

 

존재하지 않는 데이터.

제외하고 처리하는 게 효율적이나, 결측값 자체가 의미있는 예외의 경우가 있을 수도 있기 때문에 주의.

 

  • 단순 대치법: 결측값이 존재하는 데이터를 삭제하는 방법. 결측값이 많은 대량 데이터의 경우 데이터 손실이 발생할 수 있음
  • 평균 대치법: 관측 또는 실험을 통해 얻은 데이터 평균으로 결측값을 대치해 완전한 자료로 만드는 방법
  • 단순 확률 대치법: 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하기 위해 고안된 방법 (K-Nearest Neighbor)
  • 다중 대치법: 여러 범의 대치를 통해 n개의 가상적 완전 자료를 만드는 방법

 

이상값

데이터 입력 과정에서 잘못 입력되거나 분석 목적에 부합되지 않아 제거해야 하는 경우, 의도되지 않지만 분석에 포함해야 하는 경우도 있다.

 

⭐ESD (Extreme Studentized Deviation)

평균으로부터 3 표준편차만큼 떨어진 값을 이상값으로 인식하는 방법

정규분포에서 99.7% 자료들은 3 표준편차 안에 위치하므로 전체 데이터의 0.3%를 이상값으로 구분.

 

⭐사분위수

특정값을 최솟값에서 최댓값까지 오름차순으로 정렬한 자료를 4등분 했을 때 각 위치에 해당하는 값

https://blog.naver.com/bsw657/223069521498

  • IQR: !부터 Q3까지의 범위
  • 일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단
  • Q1 - 1.5 X IQR (하한 최솟값) 보다 작거나 Q3 + 1.5 X IQR (상한 최댓값)보다 큰 값을 이상값으로 간주

 

인사이트

이제부터 제대로 데이터를 취급하는 방법, 이론에 관해 알아가는 것 같아서 흥미진진하다.

자격증 취득을 위해서는 정확한 R 언어는 그다지 취급하지 않는 것 같다.

  1. 순서나 크기에 의미가 없는 범주(성별, 혈액형 등) [본문으로]