Chapter 01. 기초통계_기초과정
확률과 확률변수 (Probability & Random Variables)
주요 개념
이번 단원은 데이터 분석의 수학적 기반이 되는 확률(Probability)과 확률변수(Random Variable)를 다룬다.
확률은 사건이 일어날 가능성을 수치로 표현한 것이며,
확률변수는 그 사건의 결과를 수치로 대응시키는 함수이다.
즉,
“확률은 사건의 가능성, 확률변수는 사건을 수로 표현한 것.”
1. 확률의 기본 개념
확률(Probability)
: 어떤 사건이 일어날 가능성을 0에서 1 사이의 값으로 표현한 것.
표기
P(A) = 사건 A가 일어날 확률
0 ≤ P(A) ≤ 1
- P(A) = 0 → 사건 A는 절대 일어나지 않음
- P(A) = 1 → 사건 A는 반드시 일어남
- P(A) = 0.5 → 사건 A가 일어날 가능성이 50%
표본공간(Sample Space)과 사건(Event)
- 표본공간 S : 가능한 모든 결과의 집합
예) 동전 던지기 → S = {앞면, 뒷면} - 사건 A : 표본공간의 부분집합
예) “앞면이 나올 사건” → A = {앞면}
확률의 계산
(1) 고전적 확률
P(A) = (유리한 경우의 수) / (전체 경우의 수)
(2) 통계적 확률
P(A) = (사건 A가 발생한 횟수) / (전체 시행 횟수)
(3) 공리적 확률
확률의 세 가지 기본 공리(Axiom):
- 모든 사건 A에 대해 P(A) ≥ 0
- 표본공간 전체의 확률 P(S) = 1
- 서로 배반인 사건 A, B → P(A ∪ B) = P(A) + P(B)
2. 확률의 응용 개념
| 구분 | 정의 | 계산식 |
| 여사건 | 사건 A가 일어나지 않을 확률 | P(A') = 1 - P(A) |
| 합사건 | A 또는 B가 일어날 확률 | P(A ∪ B) = P(A) + P(B) - P(A ∩ B) |
| 곱사건 | A와 B가 동시에 일어날 확률 | P(A ∩ B) = P(A) × P(B) (독립일 때) |
| 조건부확률 | B가 일어났을 때 A가 일어날 확률 | P(A |
💡 독립사건 : 한 사건의 발생이 다른 사건에 영향을 주지 않음.
💡 종속사건 : 한 사건의 발생이 다른 사건의 확률에 영향을 줌.
3. 확률분포 (Probability Distribution)
확률분포는 확률변수가 가질 수 있는 모든 값과 그 값의 확률을 나타내는 함수이다.
→ 즉, 확률을 시각적으로 정리한 ‘분포표’ 혹은 ‘함수’.
이산확률분포 (Discrete Probability Distribution)
확률변수가 정수처럼 ‘셀 수 있는 값’을 가질 때.
- 확률질량함수(PMF):
f(x) = P(X = x)
모든 확률의 합은 1이 된다.
Σ f(x) = 1
| 예시 | 설명 |
| 이항분포 (Binomial) | n번 시행 중 k번 성공할 확률 |
| 포아송분포 (Poisson) | 일정 시간·공간에서 특정 사건 발생 횟수 |
| 기하분포 (Geometric) | 처음 성공이 나올 때까지의 시행 횟수 |
연속확률분포 (Continuous Probability Distribution)
확률변수가 연속적인 실수값을 가질 때.
- 확률밀도함수(PDF):
f(x) ≥ 0, ∫ f(x)dx = 1
| 예시 | 설명 |
| 정규분포 (Normal) | 평균을 중심으로 좌우 대칭형 |
| 지수분포 (Exponential) | 특정 사건이 발생할 때까지 걸리는 시간 |
| 균등분포 (Uniform) | 구간 내 모든 값의 확률이 동일 |
4. 확률변수 (Random Variable)
확률변수 X는 확률 실험의 결과를 수치로 대응시키는 함수.
즉, “사건을 수로 변환하는 장치”.
| 종류 | 설명 |
| 이산형 확률변수 (Discrete) | 셀 수 있는 값, 주사위 눈금, 고객 수 등 |
| 연속형 확률변수 (Continuous) | 연속적 값, 키·시간·무게 등 |
확률변수의 기대값 (Expected Value)
확률변수가 장기적으로 가질 평균값.
- 이산형:
E(X) = Σ [x × P(x)] - 연속형:
E(X) = ∫ x·f(x) dx
💡 ‘기대값’은 확률적 평균, 즉 “오랜 시행을 했을 때 평균적으로 얻는 값”.
분산과 표준편차
- 분산(Variance):
Var(X) = E[(X - μ)²] = Σ (x - μ)²P(x) - 표준편차(Standard Deviation):
σ = √Var(X)
즉, 기대값이 중심이라면 분산은 ‘흩어짐의 크기’를 나타낸다.
5. 주요 확률분포 요약표
| 분포명 | 형태 | 평균 | 분산 | 예시 |
| 이항분포 | 이산형 | np | np(1-p) | 합격자 수, 성공 횟수 |
| 포아송분포 | 이산형 | λ | λ | 시간당 고객 수, 결함 수 |
| 정규분포 | 연속형 | μ | σ² | 시험점수, 키, 무게 |
| 지수분포 | 연속형 | 1/λ | 1/λ² | 수명, 대기시간 |
* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
💡 생각 정리
확률과 확률변수 단원은 ‘데이터가 왜 그렇게 흩어지고 평균이 생기는가’ 를 수학적으로 설명해주는 단계였다.
- 확률은 사건의 “가능성”
- 확률변수는 사건의 “수치화된 결과”
- 확률분포는 그 결과들이 “어떻게 나타나는가”를 표현한다.
데이터 분석의 기초는 결국 확률분포를 이해하는 데서 시작된다.
🚀 적용점
- EDA 이후 단계로 확률분포를 분석해 데이터 형태 예측
- 이항·포아송 분포: 고객 방문, 제품 불량 등 확률적 사건 분석
- 정규분포 근사: 표본평균 분포 추정, 통계적 추론(가설검정) 기초
- Python 실습 팁
import numpy as np
import scipy.stats as stats
# 이항분포
stats.binom.pmf(k=3, n=10, p=0.4)
# 정규분포 확률밀도
stats.norm.pdf(x=0, loc=0, scale=1)
'데이터' 카테고리의 다른 글
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-5 (0) | 2025.11.12 |
|---|---|
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-4 (0) | 2025.11.11 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-2 (0) | 2025.11.09 |
| 제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-21, Part 04. 기초 통계-1 (0) | 2025.11.08 |
| 제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-20 (0) | 2025.11.07 |