프로그램_시스템/데이터

[ADsP] 통계분석 - 회귀분석

9191 2026. 6. 15. 12:23

그룹 간의 평균을 비교하는 검정 방법

 

분산분석

여러 그룹 간의 평균 차이를 통계하는 통계 기법

3개 이상의 그룹 간 평균 차이 비교하는데 주로 쓰임

그룹 간의 차이가 우연인지 판단하는데 사용

(집단 간 분산)÷(집단 내 분산)으로 계산되는 F-value

 

 

일원분산분석: 하나의 집단에 속하는 독립변수와 종속변수 모두 한 개일 때 사용

이원분산분석: 두 개의 독립변수(요인)가 종속변수에 미치는 영향을 동시에 평가. 각 독립변수는 두 개 이상의 수준(그룹 또는 조건)을 가질 수 있음

 

 

교차분석/상관분석

교차분석: 주로 범주형 변수 간의 관계를 파악할 때 사용되는 통계 분석 기법. 카이제곱 검정통계량을 이용

적합도 검정: 실험 결과 얻어진 관측값이 예상값과 일치하는지를 검정하는 방법.

독립성 검정: 두 변수 간의 관계가 독립적인지 테스트(관계가 있는지 없는지만 나타냄)

동질성 검정: 두 개 이상의 모집단이 동일한 분포를 가지고 있는지 검정

 

상관분석: 두 변수 간의 관계 정도를 알아보기 위한 분석방법. 상관계수(-1~1)로 선형적 관계 표시

피어슨 상관분석 (선형적 상관관계): 등간척도

스피어만 상관분석 (비선형적 상관관계): 서열척도

 

 

회귀분석

데이터를 선으로 분석.

 

한 변수(종속변수)와 하나 이상의 다른 변수(종속변수) 간의 관계를 모델링하고 설명하는 통계적 기법

하나 이상의 독립변수들이 종속변수(y)에 미치는 영향을 예측.

독립변수를 원인변수(혹은 설명 변수), 종속변수를 결과변수(혹은 반응변수)라고도 부름

독립변수와 종속변수는 모두 연속형 변수일 때 사용 가능하며, 종속변수가 범주형 변수인 경우에 대해서는 로지스틱 회귀분석을 사용

 

가정 4가지

  1. 선형성: 입력변수와 출력변수의 관계가 선형
  2. 독립성: 잔차와 독립변수의 값이 서로 독립이어야 한다. 독립성을 알아보기 위해 Durbin-Waston 통계량을 사용하며 주로 시계열 데이터에서 많이 활용
  3. 등분산성: 모든 독립 변수 값에 대한 오차 항의 분산이 일정하다는 가정
  4. 정규성: Q-Q Plot을 출력했을 때, 잔차가 대각방향의 직선의 형태를 지니고 있으면 정규분포를 따른다고 할 수 있다.
  5. 비상관성: 관측치들의 잔차들끼리 상관이 없어야 한다.

 

 

단순/다중선형회귀분석

하나의 독립변수와 하나의 종속변수 간의 선형 관계를 분석하는 기법

  • 모형이 통계적으로 유의미한가?
  • 회귀계수들이 유의미한가?
  • 모형이 얼마나 설명력을 갖는가?
  • 모형이 데이터를 잘 적합하고 있는가?

 

최소제곱법으로 회귀계수의 추정

결정계수 R^2

 

 

다중선형회귀분석

2개 이상의 독립변수에 대하여 종속변수의 관계를 수치적으로 파악하기 위한 기법

 

다중공선성: 독립변수들 간에 강한 상관관계가 나타나는 현상. 회귀모델의 안정성이나 해석이 어려워지는 문제를 일으킬 수 있음.

진단: 각 독립변수의 p-value 값이 커서 개별 인자가 유의하지 않은 경우 의심 가능. 분산팽창요인 (VIF, Variance Inflation Factor)을 구해 이 값이 10을 넘는다면 보통 다중공선성이 있다고 판단하며, 30보다 크면 심각한 문제가 있다고 해석 가능.

문제 해결:

  • 필요한 경우 변수 삭제 또는 변환
  • 주성분분석(PCA)을 통해 변수의 차원을 축소
  • 스크리 산점도(Scree plot)를 사용해 주성분 개수를 선택
  • 선형판별분석(LDA)으로 차원을 축소 
  • t-분포 확률적 임베딩(t-SNE)으로 차원을 축소

 

최적 회귀방정식

여러 개의 독립변수가 있을 때 종속변수를 설명하기 가장 좋은 독립변수를 선택해 최적의 회귀방정식을 찾는 것

 

단계적 변수선택법

  • 전진선택법: 
  • 후진제거법: 
  • 단계선택법: 

 

정규화 선형회귀

모델이 과도하게 최적화되는 현상(과적합)을 막는 방법

과적합되면 일반화 성능이 낮아져 이미 학습한 것은 성능이 좋지만, 학습하지 않은 것은 성능이 낮아짐.

 

과적합: 모델이 학습 데이터를 과하게 학습

과소적합: 모델이 너무 단순해 학습 데이터조차 제대로 예측하지 못함

 

  • 라쏘: 가중치들의 절댓값의 합을 최소화. L1 규제
  • 릿지: 가중치들의 제곱합을 최소화. L2 규제
  • 엘라스틱넷: 라쏘와 릿지를 결합한 모델

 

일반화 선형회귀

선형 회귀 분석을 일반화하여 다양한 종속 변수 분포와 관련된 모델링 수행

  • 로지스틱 회귀: 독립변수에 의해 종속변수의 범주로 분류화 한다는 것이 선형 회귀 분석과의 차이점이며 따라서 분류 분석 방법으로 설명
  • 포아송 회귀

 

더빈 왓슨 검정: 오차항이 독립성을 만족하는지를 검정