데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-15

Leah (리아) 2025. 11. 22. 17:40
반응형

Chapter 02. 기초통계_심화과정

 

2. 단순 회귀분석 (Simple Regression Analysis)

✨ 주요 개념 요약

■ 회귀분석이란?

  • 한 변수(X)가 다른 변수(Y)에 어떤 영향을 미치는지 선형적 관계를 추정하는 통계적 방법
  • X로 Y를 예측하는 예측 모델링 기법

■ 단순 회귀분석(Simple Regression)

  • 독립변수 1개(X) → 종속변수 1개(Y)를 설명
  • 기본식:
    Y = β₀ + β₁X + ε

■ OLS(최소제곱법, Least Squares)

  • 실제값과 예측값 차이(오차)를 최소화하는 직선 찾기
  • β₀, β₁ 값을 최소제곱법으로 추정

■ 분산분석표(ANOVA)

  • 회귀가 유의미한지 판단
  • SST = SSR + SSE
    • SSR(회귀제곱합): 회귀선이 설명하는 부분
    • SSE(잔차제곱합): 설명 못한 부분
  • F-검정으로 회귀모델의 유의성 테스트

■ 결정계수(R²)

  • 모델이 데이터를 얼마나 잘 설명하는지
  • 0에 가까울수록 설명력 낮음 / 1에 가까울수록 설명력 높음

코드 예시 (R 기반)

(PDF에 있던 그대로 정리: p.10·11·14 참고)

회귀분석

■ 단순 회귀 모델 적합

model <- lm(Y ~ X, data = tmp)
summary(model)

■ ANOVA 테이블 확인

 
anova(model)

■ 예측하기

 
predict(model, newdata = data.frame(X = 20))

■ R 출력 예시 해석

  • β₁(기울기) > 0 → X 증가 → Y 증가
  • p-value < 0.05 → 회귀식 유의미
  • R² 높을수록 설명력 좋음

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

단순 회귀분석은 ‘두 변수 간의 선형 관계가 있는지’ 확인하고, 실제 데이터 기반으로 미래 값을 예측하는 데 매우 효과적인 도구라는 점이 핵심이다.

최소제곱법을 통해 오차를 최소화하는 최적의 직선을 찾고, 분산분석표와 결정계수를 활용해 모델의 타당성과 설명력을 객관적으로 평가할 수 있다는 점도 명확히 이해됐다.

 

또한 회귀계수의 부호와 크기를 통해 변수 간 영향의 방향과 크기를 해석할 수 있으며, 기울기·절편·F값·p-value와 같은 요소들이 어떤 의미를 갖는지 PDF 속 예시를 통해 직관적으로 파악할 수 있었다.

 

즉, 단순히 “적합된다/안 된다”가 아니라 얼마나, 어떻게 영향을 미치는지를 정량적으로 설명하는 분석 방법임을 다시 확인하게 되었다.


🚀 적용점

 

  • 실제 회사 데이터(매출–광고비, 방문자–구매수 등)에 바로 적용 가능
  • 예측 모델 기반으로 A/B 테스트, 캠페인 효과 분석에 활용
  • 변수 간 상관성 파악 후 필요한 변수만 선택해 모델 간결화
  • 회귀분석을 기반으로 추후 다중 회귀·로지스틱 회귀로 확장 가능
  • F값·p-value·R² 해석법을 익혀 의사결정 보고서 작성 시 활용

 

반응형