제로베이스 데이터사이언스 스쿨

데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-4

Leah (리아) 2025. 11. 11. 10:30

Chapter 01. 기초통계_기초과정

이산형 확률분포 (Discrete Probability Distributions)

주요 개념

이산형 확률분포는 확률변수가 ‘셀 수 있는 값(정수형)’을 가지는 분포이다.
즉, 주사위 눈, 동전 던지기, 고객 수처럼 결과가 유한하거나 셀 수 있는 경우를 다룬다.

이 단원에서는 세 가지 대표적인 이산형 분포를 다룬다:
1️⃣ 이항분포 (Binomial Distribution)
2️⃣ 포아송분포 (Poisson Distribution)
3️⃣ 기하분포 (Geometric Distribution)

1. 이항분포 (Binomial Distribution)

정의:
n번의 독립된 시행에서 사건 A가 한 번 성공할 확률이 p일 때,
성공 횟수 X의 확률분포를 이항분포라 한다.

X ~ B(n, p)

확률질량함수 (PMF)

기대값과 분산

E(X) = np
Var(X) = np(1 - p)

특징

시행이 독립적이며, 성공/실패 두 가지 결과만 존재.
각 시행에서 성공 확률 p는 동일.
n이 커지고 p가 작을수록 포아송분포로 근사된다.

💻 Python 실습 예시

import scipy.stats as stats
import matplotlib.pyplot as plt

n, p = 10, 0.4
x = range(0, n+1)
y = stats.binom.pmf(x, n, p)

plt.bar(x, y)
plt.title('Binomial Distribution (n=10, p=0.4)')
plt.show()

stats.binom.pmf() : 이항분포의 확률질량함수
stats.binom.cdf() : 누적확률 계산

2. 포아송분포 (Poisson Distribution)

정의:
일정 시간 또는 공간에서 희귀 사건이 일정한 평균 빈도로 발생할 확률분포.
예: 한 시간 동안 오는 고객 수, 하루 발생하는 불량품 수 등

X ~ Poisson(λ)

확률질량함수 (PMF)

기대값과 분산

E(X) = Var(X) = λ

특징

n이 매우 크고 p가 매우 작을 때,
이항분포 B(n, p) 는 포아송분포(λ = np) 로 근사된다.
사건이 독립적이고, 동시에 두 번 이상 발생하지 않는다.

💻 Python 실습 예시

import numpy as np
from scipy.stats import poisson

λ = 3
x = np.arange(0, 10)
y = poisson.pmf(x, λ)

plt.bar(x, y)
plt.title('Poisson Distribution (λ=3)')
plt.show()

stats.poisson.pmf() : 포아송분포의 확률질량함수
stats.poisson.cdf() : 누적확률 계산

3. 기하분포 (Geometric Distribution)

정의:
성공 확률이 p인 시행을 반복했을 때,
‘첫 번째 성공이 나올 때까지 걸린 시행 횟수’를 확률변수 X로 하는 분포.

X ~ Geometric(p)

확률질량함수 (PMF)

기대값과 분산

E(X) = 1 / p
Var(X) = (1 - p) / p²

특징

처음 성공할 때까지의 시행 횟수를 표현한다.
각 시행은 독립이고 성공 확률은 일정하다.

Python 실습 예시

from scipy.stats import geom

p = 0.3
x = range(1, 11)
y = geom.pmf(x, p)

plt.bar(x, y)
plt.title('Geometric Distribution (p=0.3)')
plt.show()

4. 세 분포의 비교

구분	형태	평균	분산	예시
이항분포	n회 독립 시행에서 k회 성공	np	np(1-p)	동전 던지기, 합격자 수
포아송분포	단위시간당 사건 발생 횟수	λ	λ	불량품, 콜센터 전화 수
기하분포	첫 성공까지 시행 횟수	1/p	(1-p)/p²	첫 성공까지 던진 횟수

5. 이항분포 → 포아송 근사 조건

n → ∞ (매우 크다)
p → 0 (성공 확률이 매우 작다)
λ = np 가 일정

이 경우,

즉, 이항분포는 포아송분포로 수렴한다.
이는 실제 산업 불량률 분석, 대기행렬 시스템(Queueing) 등에 자주 활용된다.

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.

💡 생각 정리

이산형 확률분포는 ‘셀 수 있는 사건의 확률’을 정량화하는 가장 기본적인 통계 도구이다.

이항분포 → “정해진 횟수 안에서 몇 번 성공할까?”
포아송분포 → “특정 시간 동안 몇 번 일어날까?”
기하분포 → “성공할 때까지 몇 번 시도해야 할까?”

이 세 가지는 모두 확률의 구조적 패턴을 이해하는 출발점이다.

즉, 데이터를 ‘횟수’와 ‘빈도’로 읽는 눈을 길러준다.

🚀 적용점

이항분포 : 마케팅 캠페인 성공률, 품질검사 합격률
포아송분포 : 고객 문의, 트래픽, 사고 발생 횟수 예측
기하분포 : 영업 성공까지의 시도 횟수, 네트워크 패킷 재전송 분석
Python 실습 팁 :

# 누적확률
stats.binom.cdf(3, 10, 0.4)
stats.poisson.cdf(2, 5)
stats.geom.cdf(4, 0.3)

'데이터' 카테고리의 다른 글

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-6 (0)	2025.11.13
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-5 (0)	2025.11.12
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-3 (0)	2025.11.10
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-2 (0)	2025.11.09
제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-21, Part 04. 기초 통계-1 (0)	2025.11.08

현재글제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-4

기억보단 기록을 위한 공부