데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-16

Leah (리아) 2025. 11. 23. 16:49
반응형

 Chapter 02. 기초통계_심화과정

 

다중 회귀분석(Multiple Regression Analysis) 완전 정리

주요 개념 요약

  • 다중 회귀분석은 두 개 이상의 독립변수(X1, X2, …) 를 사용해 하나의 종속변수(Y)를 예측하는 방법이다.
  • 기본 형태는 아래와 같다:

  • 단순 회귀(Simple Regression)는 독립변수가 1개지만,
    다중 회귀(Multiple Regression) 는 2개 이상이다.
  • 선형/비선형 여부에 따라 Linear VS Nonlinear 모델로 나뉜다.
  • 현실 문제(부동산 가격, 매출, 건강지표 등)에 가장 많이 쓰는 회귀 방식.

예시: 보스턴 집값을 예측하는 다중 회귀

식은 다음과 같이 구성된다:

주택가격=범죄율+방개수+교육지수+…+하위계층비율

데이터에는 아래와 같은 변수들이 포함된다:

  • CRIM: 범죄율
  • ZN: 25,000 sqft 이상 주거지역 비율
  • INDUS: 비소매상업지역 비율
  • CHAS: 찰스강 접함 여부
  • NOX: 공기 오염도
  • RM: 방 개수
  • AGE: 오래된 주택 비율
  • DIS: 직업/상업 지역 접근성
  • RAD: 고속도로 접근성 지수
  • TAX: 재산세
  • PTRATIO: 교사-학생 비율
  • LSTAT: 하위계층 비율
  • MEDV: 집값 (타깃)

다중 회귀 결과 해석(중요!)

R 출력 예시에서 다음을 본다:

✔ 1) Coefficients (계수)

  • 계수가 양수 → 해당 변수가 증가할수록 Y 증가
  • 계수가 음수 → 해당 변수가 증가할수록 Y 감소
  • Pr(>|t|) 값이 0.05보다 작으면 → 유의한 변수

✔ 2) R-squared

  • 모델의 설명력을 의미
  • 0.74라면 “집값 변동의 74%를 설명한다”는 의미

✔ 3) F-statistic

  • 전체 모델이 유의한지 판단
  • p-value가 매우 작다면 모델 전체의 설명력이 의미 있음

변수 선택법(Feature Selection)

다중 회귀에서는 불필요한 변수가 많으면
→ 과적합, 다중공선성, 해석 어려움 등의 문제가 생김
그래서 변수 선택법을 사용한다.

✔ Forward Selection (전진 선택)

  • 아무 변수도 없는 상태에서
  • 가장 유의한 변수부터 하나씩 추가함

✔ Backward Elimination (후진 제거)

  • 모든 변수를 넣고 시작
  • 유의하지 않은 변수부터 제거

✔ Stepwise Selection (단계적 선택)

  • 전진/후진을 모두 사용하면서 가장 좋은 조합 탐색
  • 가장 많이 사용되는 방식

더미 변수(Dummy Variable)

범주형 변수는 숫자가 아님.
예: 지역 = A, B, C or 학력 = 고졸, 대졸, 석사, 박사
→ 회귀에 넣으려면 0/1로 변환해야 함

예시: 학력 4종류라면 필요한 더미 변수 개수 = 4 - 1 = 3개

학력 고졸 대졸 석사
고졸 1 0 0
대졸 0 1 0
석사 0 0 1
박사 0 0 0

🔥 다중공선성(Multicollinearity) — 가장 중요한 개념

독립변수끼리 상관관계가 너무 높을 때 발생하는 문제
→ 회귀계수 왜곡
→ p-value가 비정상적으로 커져서 유의하지 않게 보임
→ 예측도 불안정해짐

✔ VIF(분산팽창요인)으로 판단

VIF>10→다중공선성의심

해결 방법

  1. 유의한 변수만 남기고 제거
  2. 상관 높은 변수 중 하나만 사용
  3. PCA 등 주성분분석으로 차원 축소

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

다중 회귀분석은 현실 데이터를 다룰 때 가장 중요한 분석 도구 중 하나로, 여러 요인이 함께 작용하는 문제에서 각 변수의 영향을 정량적으로 파악할 수 있다는 강점을 가지고 있다. 단순 회귀보다 훨씬 유연하지만, 동시에 변수 간 상관관계나 다중공선성과 같은 복잡한 문제도 함께 고려해야 하기 때문에 분석자의 판단력이 중요한 영역이다. 특히 더미 변수, 변수 선택법, VIF 해석은 실제 프로젝트에서 필수적으로 사용되는 기법들이라 실습과 해석 경험이 누적될수록 모델을 더 정교하게 만들 수 있다.


🚀 적용점

 

  • 실제 비즈니스 데이터(매출, 고객 행동, 광고 성과 등)에 바로 적용 가능
  • 머신러닝 모델을 만들기 전 베이스라인 모델로 활용
  • 변수의 영향력을 파악해 전략 방향성 정할 때 유용
  • 정책/의학/부동산/마케팅 등 다양한 분야에서 의사결정 근거로 사용
  • 상관 높은 변수 제거, 더미 변수 처리 등 데이터 전처리 능력을 향

 

반응형