분류분석
반응변수(또는 종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것을 목적으로 하는 작업.
로지스틱 회귀분석
종속변수가 범주형 데이터인 경웨 사용되는 통계 분석 기법 중 하나
- 이진 분류가 기본으로 세 개 이상의 집단을 분류하는 경우 이를 다중 로지스틱 회귀분석이라고 한다.
- 독립변수가 연속형, 종속변수가 범주형일 때 가능.(독립변수가 범주형이면 더미변수1로 변환하면 가능)
- 로지스틱 회귀분석의 종속변수는 항상 0과 1사이의 값을 가지는데, 이를 위해 오즈, 로짓 변환, 시그모이드 함수 같은 개념이 등장하게 된다.
알고리즘
오즈(Odds)
성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값
각 범주(집단)에 분류될 확률 값을 추정
P/(1-P)
로짓변환
오즈의 한계인 음수를 가질 수 없음, 확률값과 오즈의 그래프는 비대칭성을 극복하기 위해 로그를 취한 것.
시그모이드 함수
0~1로 표현하기 위해 사용하는 함수
의사결정나무
나무 구조로 나타내 전체 자료를 소집단으로 분류 또는 예측 수행.
종속변수가 연속형인 회귀나무/종속변수가 이산형인 분류나무

활용
- 세분화
- 분류
- 예측
- 자원 축소 및 변수 선택
- 교호작용2
분석 과정
- 성장 단계: 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단. 최적은 불순도3 감소량이 가장 큰 것.
- 종속변수가 이산형이면 분류트리
- 종속변수가 연속형이면 회귀트리
- 가지치기 단계: 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거
- 타당성 평가 단계
- 해석 및 예측 단계
지니지수
노드의 불순도를 나타내는 값이다.
지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있다.
앙상블분석
여러 개별 모델을 결합해 하나의 강력한 모델을 만드는 기법
배깅
원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본(이를 붓스트랩 표본이라 함)에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법
부스팅
예측 성능이 배깅보다 뛰어난 경우가 많다.
배깅은 각각의 모델이 독립적이지만 부스팅은 독립적이지 않다.
랜덤 포레스트
서로 상관성이 없는 나무들로 이루어진 숲을 의미하며 배깅에 랜덤 과정을 추가한 방법
인공신경망분석
인간의 뇌를 기반으로한 학습 및 추론 모형
활성함수
노드에 입력되는 값을 바로 다음 노드로 전달하지 않고 비선형 함수에 통과시킨 후 전달
- 계단 함수: 0/1
- 부호 함수: -1/1
- 시그모이드 함수: 0~1
- 소프트맥스 함수: 출력값이 다범주인 경우에 사용된다. 로지스틱 회귀분석과 마찬가지로 각 범주에 속할 확률값
- tanh 함수: 중심 0, -1~1
- 가우스 함수: 연속형 결과. 0~1
- ReLU 함수: 입력값과 0 중에서 큰 값을 반환
구조
단층신경망과 다층신경망으로 구분됨.
은닉층: 신경망 외부에서는 은닉층의 노드에 직접 접근할 수 없도록 숨겨진 은닉한 층
단층 퍼셉트론 (단층 신경망): 데이터를 입력하는 입력층, 데이터를 출력하는 출력층
다층 퍼셉트론 (다층 신경망): 데이터를 입력하는 입력층, 데이터를 출력하는 출력층을 갖고 있는 단층 퍼셉트론과 입력층과 출력층 사이에 보이지 않는 다수의 은닉층을 가지고 있을 수 있는 다층 퍼셉트론으로 구분
나이브 베이즈
베이지 정리를 기반으로 머신러닝 기법은 한 나이브 베이즈 분류이다.
k-NN (최근접 이웃법)
데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용
k: 이웃의 개수
최적의 k를 찾기 위해 총 데이터의 제곱근 값 사용
작은 k는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 k는 모델의 결정 경계를 더 부드럽게 만듦.
서포트벡터머신
초평면을 이용하여 카테고리를 나누어 비확률적 이진 선형모델을 만든다.
분류모형성과
좋은 모델을 선정하기 위해서는 평가 기준이 필요하다.


ROC 커브

이익도표
예측력 = (목표범주 그룹1에 속한 데이터 개수)/(전체 데이터 개수)
향상도 = (반응률)/(예측력)
향상도 곡선(Lift Curve)은 누적 반응률이 전체 데이터 대비 얼마나 향상되었는지
곡선이 기울어질수록(큰 값에서 시작 후 급격히 감소) 모델 또는 전략의 효과가 더 크다

군집분석
비지도학습의 대표적인 방법론
각 개체에 대해 관측된 여러 개의 변수값들로부터 $n$개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화
거리 측도

계층적 군집분석: 유사한 개체로 군집을 만들어 덴드로그램의 형태로 표현
비계층적 군집분석: 계층적이 아닌, 군집의 수를 사전에 정해 정해진 대로 형성하는 기법
- k-means 군집 (k-평균군집): 주어진 데이터를 k개의 클러스터로 묶기
- 원하는 군집 개수, seed를 정해 그 중심으로 형성
- 중앙값/평균값 등으로 새로운 seed로 설정, 계속 군집 재할당.
연관분석
서로 연관된 의미있는 규칙 찾아내는 분석
측도
