데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-11

Leah (리아) 2025. 11. 18. 15:04
반응형

 Chapter 02. 기초통계_심화과정

 

1. 가설검정과 유의수준의 개념

핵심 요약

  • 가설검정(hypothesis testing) 이란 데이터를 기반으로 어떤 주장(가설)이 맞는지를 검증하는 절차.
  • 우리가 검증하려는 대상은 귀무가설 H₀이며, 보통 “변화 없음”, “효과 없음”처럼 보수적인 가설임.
  • 그 반대 주장인 대립가설 H₁은 우리가 입증하고 싶은 방향을 나타냄.
  • 통계적 판단을 위해 유의수준 α, 검정통계량, 기각역, p-value 개념을 사용함.

주요 개념 정리

 

귀무가설 H₀ (Null Hypothesis)

  • 기본적으로 “아무 변화 없음”이라는 가정
  • 예:
    • 코로나 백신의 효과는 없다 → H₀: μ = 0
    • A제품과 B제품의 평균 차이는 없다 → H₀: μ₁ = μ₂

대립가설 H₁ (Alternative Hypothesis)

  • 연구자가 주장하고 싶은 내용
  • 예:
    • 코로나 백신 효과가 있다 → H₁: μ ≠ 0
    • A제품 평균이 B제품보다 크다 → H₁: μ₁ > μ₂

검정 오류

오류 종류 의미
1종 오류 (Type I) H₀가 맞는데 기각함 (False Positive). 확률 = α
2종 오류 (Type II) H₀가 틀렸는데 기각 못 함 (False Negative).

P-value

  • “귀무가설이 참일 때 지금보다 극단적인 데이터가 나올 확률”
  • p-value < α → H₀ 기각(=대립가설 채택)

가설검정의 5단계 절차

  1. 가설 수립 (H₀, H₁ 설정)
  2. 유의수준 결정 (보통 α = 0.05)
  3. 기각역 설정
  4. 검정통계량 계산
  5. 기각/채택 여부 판단

2. 단일 표본에 대한 가설검정

A. 모평균 가설검정 – 모분산을 아는 경우(Z-test)

● 검정통계량

● 기각 기준

  • 양측검정: ∣z∣≥zα/2|z| ≥ z_{\alpha/2}
  • 좌측검정: z≤−zαz ≤ -z_{\alpha}
  • 우측검정: z≥zαz ≥ z_{\alpha}

● 예시

  • 커피 카페인 함량 표기 140mg이 정확한지 조사
  • 표본평균 138, 표준편차 15, n=100
  • z = -1.333 → ±1.96 안에 있으므로 기각 불가
    → “140mg과 다르다고 말할 수 없다”

B. 모평균 가설검정 – 모분산을 모르는 경우(t-test)

● 검정통계량

  • 기준은 t-분포 임계값

3. 단일 표본 – 모비율 가설검정

● 검정통계량

● 예시

  • “백신 A는 효과가 80% 이상이어야 한다”
  • 실제 조사: 100명 중 78명 효과 → p̂=0.78
  • z 계산 후 임계값 기준으로 기각 여부 판단

4. 양측검정 vs 단측검정

양측검정 (차이가 있다)

  • H₁: μ ≠ μ₀
  • A백신 vs B백신 면역력 차이 존재?

단측검정 (크다 또는 작다)

  • H₁: μ > μ₀ 또는 μ < μ₀
  • A제품 수율이 B제품보다 큰가?

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

가설검정은 단순히 계산을 하는 과정이 아니라, “우리가 어떤 결론을 내리고 싶은지”를 논리적으로 표현하고 증명하는 절차라는 점이 가장 중요하다. 데이터를 보고 싶은 방향대로 해석하는 것이 아니라, 우선적으로 보수적인 가설(H₀)을 기준으로 판단하며, 그 가설을 벗어날 만큼의 통계적 근거가 있는지를 검증하는 과정이다. 이를 위해 유의수준, 검정통계량, 기각역, p-value 같은 도구들이 체계적으로 연결되어 있으며, 각각의 해석이 정확해야 올바른 결론을 얻을 수 있다.


🚀 적용점

 

  • 마케팅 A/B 테스트에서 메일 클릭률·전환율 차이가 유의미한지 판단 가능
  • 제조업에서 공정 개선 전/후 품질 평균 변화 검증
  • 신약 임상시험에서 기존 약 대비 효과 차이 검증
  • UX 실험(새 UI 적용 전·후 사용자 작업시간 비교)에 활용
  • 비율 기반 지표(이탈률, 전환률 등) 평가 시 모비율 검정 활용

 

반응형