반응형
Chapter 02. 기초통계_심화과정
다중 회귀분석(Multiple Regression Analysis) 완전 정리
주요 개념 요약
- 다중 회귀분석은 두 개 이상의 독립변수(X1, X2, …) 를 사용해 하나의 종속변수(Y)를 예측하는 방법이다.
- 기본 형태는 아래와 같다:

- 단순 회귀(Simple Regression)는 독립변수가 1개지만,
다중 회귀(Multiple Regression) 는 2개 이상이다. - 선형/비선형 여부에 따라 Linear VS Nonlinear 모델로 나뉜다.
- 현실 문제(부동산 가격, 매출, 건강지표 등)에 가장 많이 쓰는 회귀 방식.
예시: 보스턴 집값을 예측하는 다중 회귀
식은 다음과 같이 구성된다:
주택가격=범죄율+방개수+교육지수+…+하위계층비율
데이터에는 아래와 같은 변수들이 포함된다:
- CRIM: 범죄율
- ZN: 25,000 sqft 이상 주거지역 비율
- INDUS: 비소매상업지역 비율
- CHAS: 찰스강 접함 여부
- NOX: 공기 오염도
- RM: 방 개수
- AGE: 오래된 주택 비율
- DIS: 직업/상업 지역 접근성
- RAD: 고속도로 접근성 지수
- TAX: 재산세
- PTRATIO: 교사-학생 비율
- LSTAT: 하위계층 비율
- MEDV: 집값 (타깃)
다중 회귀 결과 해석(중요!)
R 출력 예시에서 다음을 본다:
✔ 1) Coefficients (계수)
- 계수가 양수 → 해당 변수가 증가할수록 Y 증가
- 계수가 음수 → 해당 변수가 증가할수록 Y 감소
- Pr(>|t|) 값이 0.05보다 작으면 → 유의한 변수
✔ 2) R-squared
- 모델의 설명력을 의미
- 0.74라면 “집값 변동의 74%를 설명한다”는 의미
✔ 3) F-statistic
- 전체 모델이 유의한지 판단
- p-value가 매우 작다면 모델 전체의 설명력이 의미 있음
변수 선택법(Feature Selection)
다중 회귀에서는 불필요한 변수가 많으면
→ 과적합, 다중공선성, 해석 어려움 등의 문제가 생김
그래서 변수 선택법을 사용한다.
✔ Forward Selection (전진 선택)
- 아무 변수도 없는 상태에서
- 가장 유의한 변수부터 하나씩 추가함
✔ Backward Elimination (후진 제거)
- 모든 변수를 넣고 시작
- 유의하지 않은 변수부터 제거
✔ Stepwise Selection (단계적 선택)
- 전진/후진을 모두 사용하면서 가장 좋은 조합 탐색
- 가장 많이 사용되는 방식
더미 변수(Dummy Variable)
범주형 변수는 숫자가 아님.
예: 지역 = A, B, C or 학력 = 고졸, 대졸, 석사, 박사
→ 회귀에 넣으려면 0/1로 변환해야 함
예시: 학력 4종류라면 필요한 더미 변수 개수 = 4 - 1 = 3개
| 학력 | 고졸 | 대졸 | 석사 |
| 고졸 | 1 | 0 | 0 |
| 대졸 | 0 | 1 | 0 |
| 석사 | 0 | 0 | 1 |
| 박사 | 0 | 0 | 0 |
🔥 다중공선성(Multicollinearity) — 가장 중요한 개념
독립변수끼리 상관관계가 너무 높을 때 발생하는 문제
→ 회귀계수 왜곡
→ p-value가 비정상적으로 커져서 유의하지 않게 보임
→ 예측도 불안정해짐
✔ VIF(분산팽창요인)으로 판단
VIF>10→다중공선성의심
해결 방법
- 유의한 변수만 남기고 제거
- 상관 높은 변수 중 하나만 사용
- PCA 등 주성분분석으로 차원 축소
* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
💡 생각 정리
다중 회귀분석은 현실 데이터를 다룰 때 가장 중요한 분석 도구 중 하나로, 여러 요인이 함께 작용하는 문제에서 각 변수의 영향을 정량적으로 파악할 수 있다는 강점을 가지고 있다. 단순 회귀보다 훨씬 유연하지만, 동시에 변수 간 상관관계나 다중공선성과 같은 복잡한 문제도 함께 고려해야 하기 때문에 분석자의 판단력이 중요한 영역이다. 특히 더미 변수, 변수 선택법, VIF 해석은 실제 프로젝트에서 필수적으로 사용되는 기법들이라 실습과 해석 경험이 누적될수록 모델을 더 정교하게 만들 수 있다.
🚀 적용점
- 실제 비즈니스 데이터(매출, 고객 행동, 광고 성과 등)에 바로 적용 가능
- 머신러닝 모델을 만들기 전 베이스라인 모델로 활용
- 변수의 영향력을 파악해 전략 방향성 정할 때 유용
- 정책/의학/부동산/마케팅 등 다양한 분야에서 의사결정 근거로 사용
- 상관 높은 변수 제거, 더미 변수 처리 등 데이터 전처리 능력을 향
반응형
'데이터' 카테고리의 다른 글
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-18 (0) | 2025.11.25 |
|---|---|
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-17 (0) | 2025.11.24 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-15 (0) | 2025.11.22 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-14 (0) | 2025.11.21 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-13 (0) | 2025.11.20 |