데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-9

Leah (리아) 2025. 11. 16. 12:03
반응형

Chapter 01. 기초통계_기초과정

 

추정(Estimation) -점추정, 구간추정, 신뢰구간 개념 총정리

 

주요 개념 요약

  • 추정(estimation): 표본을 이용해 모수(모평균, 모분산 등)를 근사적으로 계산하는 과정
  • 추정량(estimator): 표본 평균·표본 분산처럼 모수를 추정하는 데 사용되는 통계량
  • 점추정(point estimation): 하나의 값으로 모수를 추정
  • 구간추정(interval estimation): 모수가 포함될 가능성이 높은 구간을 제시
  • 좋은 추정량의 조건: 일치성, 불편성, 효율성, 평균오차제곱(MSE) 최소
  • 신뢰수준(Confidence level): 추정 구간 안에 모수가 존재할 확률
  • Z-신뢰구간 / t-신뢰구간: 모분산을 알 때는 Z, 모분산을 모를 때는 t 사용
  • 표본의 크기 결정: 허용오차 d와 신뢰수준으로 필요한 표본 수 계산 가능

1. 추정이란 무엇인가?

모수(모평균, 모분산)는 전체 모집단을 모두 조사하지 않으면 알 수 없다.
그래서 실제로는 표본을 추출한 뒤 그 통계량을 이용해 모수를 유추하게 되는데, 이것이 바로 *추정(estimation)*이다.

 

추정량(estimator)

  • 표본평균으로 모평균을 추정한다면, ‘표본평균’이 바로 추정량
  • 표본분산으로 모분산을 추정한다면 ‘표본분산’이 추정량

2. 좋은 추정량의 조건

1) 일치성(Consistency)

  • 표본 수가 커질수록 추정량이 모수에 가까워지는 성질
  • n → ∞일 때 추정량의 오차가 줄어드는 특징

2) 불편성(Unbiasedness)

  • 추정량의 기댓값이 모수와 같아야 함
  • 예: E(표본평균) = 모평균 → 불편추정량

3) 효율성(Efficiency)

  • 여러 불편추정량이 있을 때 분산이 가장 작은 추정량이 가장 효율적

4) 평균오차제곱(MSE) 최소

  • (추정량 – 모수)²의 기댓값이 최소일수록 좋은 추정량

3. 점추정 vs 구간추정

점추정

모수를 하나의 숫자로 바로 추정
예:
모평균 μ ≈ 표본평균 x̄

 

구간추정

모수가 포함될 가능성이 높은 구간을 제시
예:
95% 신뢰수준 → “모평균이 A와 B 사이에 있을 확률이 95%”


4. 신뢰구간 개념

 

신뢰수준(Confidence Level)

  • 100×(1-α)%
  • α = 유의수준
  • 예: 95% 신뢰수준 → α = 0.05

신뢰구간 표현식

모수가 θ일 때,

즉, 추정 구간이 모수를 포함할 확률을 의미한다.


5. 모평균 신뢰구간

(1) 모분산을 아는 경우 → Z 분포 사용

예시

  • 표본평균 = 50
  • 표준오차 = 10
  • 95% 신뢰구간 (z = 1.96)

 


(2) 모분산을 모르는 경우 → t 분포 사용

예시

  • 표본평균 = 10
  • 표본분산 = 40
  • n = 25
  • t = 2.064(약)


6. 표본 크기 결정 (허용오차 d)

예측하고 싶은 모평균의 오차를 d 이하로 제한하고 싶을 때,

즉,

  • 정밀하게 추정하고 싶을수록 → d를 작게 → n 증가
  • 신뢰수준을 높일수록 → z값 증가 → n 증가

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

추정은 표본을 통해 모집단을 “어느 정도 확률로” 알고자 하는 과정이다.
특히 구간추정은 점추정보다 훨씬 현실적이고 유용한데, 이유는 실제 모수를 정확한 하나의 숫자로 맞추는 것은 거의 불가능하기 때문이다.
신뢰구간은 단순 계산을 넘어서, “이 분석 결과가 얼마나 신뢰할 수 있는가?”라는 해석을 제공하기 때문에 데이터 분석 전체를 지탱하는 핵심 개념이라고 느껴졌다.

또한 t-분포와 Z-분포를 상황에 따라 구분하는 이유를 다시 보며, "모분산은 거의 모른다 → 실제 현장에서는 대부분 t" 라는 점도 자연스럽게 정리되었다.


🚀 적용점

✔ 데이터 분석에서 표본평균을 활용할 때, 무조건 신뢰구간까지 제시해 해석의 신뢰도를 높이기
✔ 모분산을 모르고 표본이 적을 때는 반드시 t-분포 사용
✔ 의사결정 보고서 작성 시

  • “평균은 10입니다” → 점추정만 제시하는 방식
  • “95% 신뢰구간: (9.1, 10.8)” → 훨씬 설득력 있는 결과

✔ 실험 설계나 설문조사 진행 전에 필요한 표본 수를 계산하여 리소스 낭비 방지
✔ 통계적 추정 개념을 정확히 이해하면 A/B 테스트, 공정관리, 마케팅 지표 분석 등 다양한 실무에서 더욱 안정적인 판단 가능

반응형