제로베이스 데이터사이언스 스쿨

데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-3

Leah (리아) 2025. 11. 10. 14:51

Chapter 01. 기초통계_기초과정

확률과 확률변수 (Probability & Random Variables)

주요 개념

이번 단원은 데이터 분석의 수학적 기반이 되는 확률(Probability)과 확률변수(Random Variable)를 다룬다.
확률은 사건이 일어날 가능성을 수치로 표현한 것이며,
확률변수는 그 사건의 결과를 수치로 대응시키는 함수이다.

즉,

“확률은 사건의 가능성, 확률변수는 사건을 수로 표현한 것.”

1. 확률의 기본 개념

확률(Probability)
: 어떤 사건이 일어날 가능성을 0에서 1 사이의 값으로 표현한 것.

표기

P(A) = 사건 A가 일어날 확률
0 ≤ P(A) ≤ 1

P(A) = 0 → 사건 A는 절대 일어나지 않음
P(A) = 1 → 사건 A는 반드시 일어남
P(A) = 0.5 → 사건 A가 일어날 가능성이 50%

표본공간(Sample Space)과 사건(Event)

표본공간 S : 가능한 모든 결과의 집합
예) 동전 던지기 → S = {앞면, 뒷면}
사건 A : 표본공간의 부분집합
예) “앞면이 나올 사건” → A = {앞면}

확률의 계산

(1) 고전적 확률

P(A) = (유리한 경우의 수) / (전체 경우의 수)

(2) 통계적 확률

P(A) = (사건 A가 발생한 횟수) / (전체 시행 횟수)

(3) 공리적 확률
확률의 세 가지 기본 공리(Axiom):

모든 사건 A에 대해 P(A) ≥ 0
표본공간 전체의 확률 P(S) = 1
서로 배반인 사건 A, B → P(A ∪ B) = P(A) + P(B)

2. 확률의 응용 개념

구분	정의	계산식
여사건	사건 A가 일어나지 않을 확률	P(A') = 1 - P(A)
합사건	A 또는 B가 일어날 확률	P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
곱사건	A와 B가 동시에 일어날 확률	P(A ∩ B) = P(A) × P(B) (독립일 때)
조건부확률	B가 일어났을 때 A가 일어날 확률	P(A

💡 독립사건 : 한 사건의 발생이 다른 사건에 영향을 주지 않음.
💡 종속사건 : 한 사건의 발생이 다른 사건의 확률에 영향을 줌.

3. 확률분포 (Probability Distribution)

확률분포는 확률변수가 가질 수 있는 모든 값과 그 값의 확률을 나타내는 함수이다.
→ 즉, 확률을 시각적으로 정리한 ‘분포표’ 혹은 ‘함수’.

이산확률분포 (Discrete Probability Distribution)

확률변수가 정수처럼 ‘셀 수 있는 값’을 가질 때.

확률질량함수(PMF):
f(x) = P(X = x)
모든 확률의 합은 1이 된다.
Σ f(x) = 1

예시	설명
이항분포 (Binomial)	n번 시행 중 k번 성공할 확률
포아송분포 (Poisson)	일정 시간·공간에서 특정 사건 발생 횟수
기하분포 (Geometric)	처음 성공이 나올 때까지의 시행 횟수

연속확률분포 (Continuous Probability Distribution)

확률변수가 연속적인 실수값을 가질 때.

확률밀도함수(PDF):
f(x) ≥ 0, ∫ f(x)dx = 1

예시	설명
정규분포 (Normal)	평균을 중심으로 좌우 대칭형
지수분포 (Exponential)	특정 사건이 발생할 때까지 걸리는 시간
균등분포 (Uniform)	구간 내 모든 값의 확률이 동일

4. 확률변수 (Random Variable)

확률변수 X는 확률 실험의 결과를 수치로 대응시키는 함수.
즉, “사건을 수로 변환하는 장치”.

종류	설명
이산형 확률변수 (Discrete)	셀 수 있는 값, 주사위 눈금, 고객 수 등
연속형 확률변수 (Continuous)	연속적 값, 키·시간·무게 등

확률변수의 기대값 (Expected Value)

확률변수가 장기적으로 가질 평균값.

이산형:
E(X) = Σ [x × P(x)]
연속형:
E(X) = ∫ x·f(x) dx

💡 ‘기대값’은 확률적 평균, 즉 “오랜 시행을 했을 때 평균적으로 얻는 값”.

분산과 표준편차

분산(Variance):
Var(X) = E[(X - μ)²] = Σ (x - μ)²P(x)
표준편차(Standard Deviation):
σ = √Var(X)

즉, 기대값이 중심이라면 분산은 ‘흩어짐의 크기’를 나타낸다.

5. 주요 확률분포 요약표

분포명	형태	평균	분산	예시
이항분포	이산형	np	np(1-p)	합격자 수, 성공 횟수
포아송분포	이산형	λ	λ	시간당 고객 수, 결함 수
정규분포	연속형	μ	σ²	시험점수, 키, 무게
지수분포	연속형	1/λ	1/λ²	수명, 대기시간

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.

💡 생각 정리

확률과 확률변수 단원은 ‘데이터가 왜 그렇게 흩어지고 평균이 생기는가’ 를 수학적으로 설명해주는 단계였다.

확률은 사건의 “가능성”
확률변수는 사건의 “수치화된 결과”
확률분포는 그 결과들이 “어떻게 나타나는가”를 표현한다.

데이터 분석의 기초는 결국 확률분포를 이해하는 데서 시작된다.

🚀 적용점

EDA 이후 단계로 확률분포를 분석해 데이터 형태 예측
이항·포아송 분포: 고객 방문, 제품 불량 등 확률적 사건 분석
정규분포 근사: 표본평균 분포 추정, 통계적 추론(가설검정) 기초
Python 실습 팁

import numpy as np
import scipy.stats as stats

# 이항분포
stats.binom.pmf(k=3, n=10, p=0.4)

# 정규분포 확률밀도
stats.norm.pdf(x=0, loc=0, scale=1)

'데이터' 카테고리의 다른 글

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-5 (0)	2025.11.12
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-4 (0)	2025.11.11
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-2 (0)	2025.11.09
제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-21, Part 04. 기초 통계-1 (0)	2025.11.08
제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-20 (0)	2025.11.07

현재글제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-3

기억보단 기록을 위한 공부