데이터 마이닝이란
많은 데이터들 속에서 패턴, 규칙을 찾아서 예측을 하는 것.
통계분석과의 차이
통계분석은 가설이나 가정에 따른 분석 및 검증
데이터 마이닝은 가설과 검정을 하지 않아도 되고, 다양한 수리 알고리즘으로 데이터베이스 데이터로부터 의미 있는 정보를 찾아내는 방법을 의미한다.
최종적으로 인사이트를 얻어 이를 활용하기만 하면 된다.
데이터 마이닝 분석 방법
지도학습: 알고리즘에게 입력 데이터와 정답을 제공하여 모델을 훈련시키는 방식.
비지도학습: 정답을 제공하지 않고 학습하는 방식(패턴 또는 구조 찾기)
- 분류
- 추정
- 예측
- 연관 분석
- 군집
- 기술
데이터 마이닝 추진 5단계
- 목적 정의
- 데이터 준비
- 데이터 가공
- 데이터 마이닝 기법 적용
- 검증
데이터 분할
주어진 데이터 집합을 여러 부분으로 나누는 프로세스
훈련 세트, 테스트 세트로 나누는데 사용
- 훈련용/구축용(50%)
- 검정용(30%)
- 시험용(20%)
과적합/과대적합: 모델이 훈련 데이터에 너무 많이 적용되어 노이즈까지 학습
과소적합: 훈련 데이터 패턴을 충분히 학습하지 못해 예측 능력이 떨어짐
홀드아웃
가장 보편적인 데이터 분할을 통한 검증 방법
전체 데이터에서 랜덤하게 학습 데이터 80%, 테스트 데이터 20%로 분리.
k-Fold 교차검증 (cross-validation)
데이터를 k개의 집단으로 나누어 모델을 여러 번 훈련하고 평가
k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 구축된 k개의 모델을 종합하여 최종 모델을 구축
부트스트랩
기존의 데이터 집단에서 복원추출을 통해 여러 개의 샘플을 생성하고 이를 통해 모집단의 특성을 추정
표본을 다시 추출하는 경우는 모델의 신뢰도를 높여 성능을 개선하고자 할 때
계층별 k-겹 교차 검증 (Stratified k-fold cross validation)
불균형 데이터를 분류하는 문제에서 사용
작동 방식은 k-폴드 교차검증과 동일