Chapter 01. 기초통계_기초과정
이산형 확률분포 (Discrete Probability Distributions)
주요 개념
이산형 확률분포는 확률변수가 ‘셀 수 있는 값(정수형)’을 가지는 분포이다.
즉, 주사위 눈, 동전 던지기, 고객 수처럼 결과가 유한하거나 셀 수 있는 경우를 다룬다.
이 단원에서는 세 가지 대표적인 이산형 분포를 다룬다:
1️⃣ 이항분포 (Binomial Distribution)
2️⃣ 포아송분포 (Poisson Distribution)
3️⃣ 기하분포 (Geometric Distribution)
1. 이항분포 (Binomial Distribution)
정의:
n번의 독립된 시행에서 사건 A가 한 번 성공할 확률이 p일 때,
성공 횟수 X의 확률분포를 이항분포라 한다.
X ~ B(n, p)
확률질량함수 (PMF)

기대값과 분산
- E(X) = np
- Var(X) = np(1 - p)
특징
- 시행이 독립적이며, 성공/실패 두 가지 결과만 존재.
- 각 시행에서 성공 확률 p는 동일.
- n이 커지고 p가 작을수록 포아송분포로 근사된다.
💻 Python 실습 예시
import scipy.stats as stats
import matplotlib.pyplot as plt
n, p = 10, 0.4
x = range(0, n+1)
y = stats.binom.pmf(x, n, p)
plt.bar(x, y)
plt.title('Binomial Distribution (n=10, p=0.4)')
plt.show()
- stats.binom.pmf() : 이항분포의 확률질량함수
- stats.binom.cdf() : 누적확률 계산
2. 포아송분포 (Poisson Distribution)
정의:
일정 시간 또는 공간에서 희귀 사건이 일정한 평균 빈도로 발생할 확률분포.
예: 한 시간 동안 오는 고객 수, 하루 발생하는 불량품 수 등
X ~ Poisson(λ)
확률질량함수 (PMF)

기대값과 분산
E(X) = Var(X) = λ
특징
- n이 매우 크고 p가 매우 작을 때,
이항분포 B(n, p) 는 포아송분포(λ = np) 로 근사된다. - 사건이 독립적이고, 동시에 두 번 이상 발생하지 않는다.
💻 Python 실습 예시
import numpy as np
from scipy.stats import poisson
λ = 3
x = np.arange(0, 10)
y = poisson.pmf(x, λ)
plt.bar(x, y)
plt.title('Poisson Distribution (λ=3)')
plt.show()
- stats.poisson.pmf() : 포아송분포의 확률질량함수
- stats.poisson.cdf() : 누적확률 계산
3. 기하분포 (Geometric Distribution)
정의:
성공 확률이 p인 시행을 반복했을 때,
‘첫 번째 성공이 나올 때까지 걸린 시행 횟수’를 확률변수 X로 하는 분포.
X ~ Geometric(p)
확률질량함수 (PMF)

기대값과 분산
- E(X) = 1 / p
- Var(X) = (1 - p) / p²
특징
- 처음 성공할 때까지의 시행 횟수를 표현한다.
- 각 시행은 독립이고 성공 확률은 일정하다.
Python 실습 예시
from scipy.stats import geom
p = 0.3
x = range(1, 11)
y = geom.pmf(x, p)
plt.bar(x, y)
plt.title('Geometric Distribution (p=0.3)')
plt.show()
4. 세 분포의 비교
| 구분 | 형태 | 평균 | 분산 | 예시 |
| 이항분포 | n회 독립 시행에서 k회 성공 | np | np(1-p) | 동전 던지기, 합격자 수 |
| 포아송분포 | 단위시간당 사건 발생 횟수 | λ | λ | 불량품, 콜센터 전화 수 |
| 기하분포 | 첫 성공까지 시행 횟수 | 1/p | (1-p)/p² | 첫 성공까지 던진 횟수 |
5. 이항분포 → 포아송 근사 조건
- n → ∞ (매우 크다)
- p → 0 (성공 확률이 매우 작다)
- λ = np 가 일정
이 경우,

즉, 이항분포는 포아송분포로 수렴한다.
이는 실제 산업 불량률 분석, 대기행렬 시스템(Queueing) 등에 자주 활용된다.
* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
💡 생각 정리
이산형 확률분포는 ‘셀 수 있는 사건의 확률’을 정량화하는 가장 기본적인 통계 도구이다.
- 이항분포 → “정해진 횟수 안에서 몇 번 성공할까?”
- 포아송분포 → “특정 시간 동안 몇 번 일어날까?”
- 기하분포 → “성공할 때까지 몇 번 시도해야 할까?”
이 세 가지는 모두 확률의 구조적 패턴을 이해하는 출발점이다.
즉, 데이터를 ‘횟수’와 ‘빈도’로 읽는 눈을 길러준다.
🚀 적용점
- 이항분포 : 마케팅 캠페인 성공률, 품질검사 합격률
- 포아송분포 : 고객 문의, 트래픽, 사고 발생 횟수 예측
- 기하분포 : 영업 성공까지의 시도 횟수, 네트워크 패킷 재전송 분석
- Python 실습 팁 :
# 누적확률
stats.binom.cdf(3, 10, 0.4)
stats.poisson.cdf(2, 5)
stats.geom.cdf(4, 0.3)
'데이터' 카테고리의 다른 글
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-6 (0) | 2025.11.13 |
|---|---|
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-5 (0) | 2025.11.12 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-3 (0) | 2025.11.10 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-2 (0) | 2025.11.09 |
| 제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-21, Part 04. 기초 통계-1 (0) | 2025.11.08 |