반응형
Chapter 02. 기초통계_심화과정
2. 단순 회귀분석 (Simple Regression Analysis)
✨ 주요 개념 요약
■ 회귀분석이란?
- 한 변수(X)가 다른 변수(Y)에 어떤 영향을 미치는지 선형적 관계를 추정하는 통계적 방법
- X로 Y를 예측하는 예측 모델링 기법
■ 단순 회귀분석(Simple Regression)
- 독립변수 1개(X) → 종속변수 1개(Y)를 설명
- 기본식:
Y = β₀ + β₁X + ε
■ OLS(최소제곱법, Least Squares)
- 실제값과 예측값 차이(오차)를 최소화하는 직선 찾기
- β₀, β₁ 값을 최소제곱법으로 추정
■ 분산분석표(ANOVA)
- 회귀가 유의미한지 판단
- SST = SSR + SSE
- SSR(회귀제곱합): 회귀선이 설명하는 부분
- SSE(잔차제곱합): 설명 못한 부분
- F-검정으로 회귀모델의 유의성 테스트
■ 결정계수(R²)
- 모델이 데이터를 얼마나 잘 설명하는지
- 0에 가까울수록 설명력 낮음 / 1에 가까울수록 설명력 높음
코드 예시 (R 기반)
(PDF에 있던 그대로 정리: p.10·11·14 참고)
회귀분석
■ 단순 회귀 모델 적합
model <- lm(Y ~ X, data = tmp)
summary(model)
■ ANOVA 테이블 확인
anova(model)
■ 예측하기
predict(model, newdata = data.frame(X = 20))
■ R 출력 예시 해석
- β₁(기울기) > 0 → X 증가 → Y 증가
- p-value < 0.05 → 회귀식 유의미
- R² 높을수록 설명력 좋음
* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
💡 생각 정리
단순 회귀분석은 ‘두 변수 간의 선형 관계가 있는지’ 확인하고, 실제 데이터 기반으로 미래 값을 예측하는 데 매우 효과적인 도구라는 점이 핵심이다.
최소제곱법을 통해 오차를 최소화하는 최적의 직선을 찾고, 분산분석표와 결정계수를 활용해 모델의 타당성과 설명력을 객관적으로 평가할 수 있다는 점도 명확히 이해됐다.
또한 회귀계수의 부호와 크기를 통해 변수 간 영향의 방향과 크기를 해석할 수 있으며, 기울기·절편·F값·p-value와 같은 요소들이 어떤 의미를 갖는지 PDF 속 예시를 통해 직관적으로 파악할 수 있었다.
즉, 단순히 “적합된다/안 된다”가 아니라 얼마나, 어떻게 영향을 미치는지를 정량적으로 설명하는 분석 방법임을 다시 확인하게 되었다.
🚀 적용점
- 실제 회사 데이터(매출–광고비, 방문자–구매수 등)에 바로 적용 가능
- 예측 모델 기반으로 A/B 테스트, 캠페인 효과 분석에 활용
- 변수 간 상관성 파악 후 필요한 변수만 선택해 모델 간결화
- 회귀분석을 기반으로 추후 다중 회귀·로지스틱 회귀로 확장 가능
- F값·p-value·R² 해석법을 익혀 의사결정 보고서 작성 시 활용
반응형
'데이터' 카테고리의 다른 글
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-17 (0) | 2025.11.24 |
|---|---|
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-16 (0) | 2025.11.23 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-14 (0) | 2025.11.21 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-13 (0) | 2025.11.20 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-12 (0) | 2025.11.19 |