데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-3

Leah (리아) 2025. 11. 10. 14:51
반응형

Chapter 01. 기초통계_기초과정

 

확률과 확률변수 (Probability & Random Variables)

 

주요 개념

이번 단원은 데이터 분석의 수학적 기반이 되는 확률(Probability)과 확률변수(Random Variable)를 다룬다.
확률은 사건이 일어날 가능성을 수치로 표현한 것이며,
확률변수는 그 사건의 결과를 수치로 대응시키는 함수이다.

즉,

“확률은 사건의 가능성, 확률변수는 사건을 수로 표현한 것.”


1. 확률의 기본 개념

확률(Probability)
: 어떤 사건이 일어날 가능성을 0에서 1 사이의 값으로 표현한 것.

 

표기

P(A) = 사건 A가 일어날 확률
0 ≤ P(A) ≤ 1

  • P(A) = 0 → 사건 A는 절대 일어나지 않음
  • P(A) = 1 → 사건 A는 반드시 일어남
  • P(A) = 0.5 → 사건 A가 일어날 가능성이 50%

표본공간(Sample Space)과 사건(Event)

  • 표본공간 S : 가능한 모든 결과의 집합
    예) 동전 던지기 → S = {앞면, 뒷면}
  • 사건 A : 표본공간의 부분집합
    예) “앞면이 나올 사건” → A = {앞면}

확률의 계산

(1) 고전적 확률

P(A) = (유리한 경우의 수) / (전체 경우의 수)

(2) 통계적 확률

P(A) = (사건 A가 발생한 횟수) / (전체 시행 횟수)

(3) 공리적 확률
확률의 세 가지 기본 공리(Axiom):

  1. 모든 사건 A에 대해 P(A) ≥ 0
  2. 표본공간 전체의 확률 P(S) = 1
  3. 서로 배반인 사건 A, B → P(A ∪ B) = P(A) + P(B)

2. 확률의 응용 개념

구분 정의 계산식
여사건 사건 A가 일어나지 않을 확률 P(A') = 1 - P(A)
합사건 A 또는 B가 일어날 확률 P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
곱사건 A와 B가 동시에 일어날 확률 P(A ∩ B) = P(A) × P(B) (독립일 때)
조건부확률 B가 일어났을 때 A가 일어날 확률 P(A

💡 독립사건 : 한 사건의 발생이 다른 사건에 영향을 주지 않음.
💡 종속사건 : 한 사건의 발생이 다른 사건의 확률에 영향을 줌.


3. 확률분포 (Probability Distribution)

확률분포는 확률변수가 가질 수 있는 모든 값과 그 값의 확률을 나타내는 함수이다.
→ 즉, 확률을 시각적으로 정리한 ‘분포표’ 혹은 ‘함수’.


이산확률분포 (Discrete Probability Distribution)

확률변수가 정수처럼 ‘셀 수 있는 값’을 가질 때.

  • 확률질량함수(PMF):
    f(x) = P(X = x)
    모든 확률의 합은 1이 된다.
    Σ f(x) = 1
예시 설명
이항분포 (Binomial) n번 시행 중 k번 성공할 확률
포아송분포 (Poisson) 일정 시간·공간에서 특정 사건 발생 횟수
기하분포 (Geometric) 처음 성공이 나올 때까지의 시행 횟수

연속확률분포 (Continuous Probability Distribution)

확률변수가 연속적인 실수값을 가질 때.

  • 확률밀도함수(PDF):
    f(x) ≥ 0, ∫ f(x)dx = 1
예시 설명
정규분포 (Normal) 평균을 중심으로 좌우 대칭형
지수분포 (Exponential) 특정 사건이 발생할 때까지 걸리는 시간
균등분포 (Uniform) 구간 내 모든 값의 확률이 동일

4. 확률변수 (Random Variable)

확률변수 X는 확률 실험의 결과를 수치로 대응시키는 함수.
즉, “사건을 수로 변환하는 장치”.

종류 설명
이산형 확률변수 (Discrete) 셀 수 있는 값, 주사위 눈금, 고객 수 등
연속형 확률변수 (Continuous) 연속적 값, 키·시간·무게 등

확률변수의 기대값 (Expected Value)

확률변수가 장기적으로 가질 평균값.

  • 이산형:
    E(X) = Σ [x × P(x)]
  • 연속형:
    E(X) = ∫ x·f(x) dx

💡 ‘기대값’은 확률적 평균, 즉 “오랜 시행을 했을 때 평균적으로 얻는 값”.


분산과 표준편차

  • 분산(Variance):
    Var(X) = E[(X - μ)²] = Σ (x - μ)²P(x)
  • 표준편차(Standard Deviation):
    σ = √Var(X)

즉, 기대값이 중심이라면 분산은 ‘흩어짐의 크기’를 나타낸다.


5. 주요 확률분포 요약표

분포명 형태 평균 분산 예시
이항분포 이산형 np np(1-p) 합격자 수, 성공 횟수
포아송분포 이산형 λ λ 시간당 고객 수, 결함 수
정규분포 연속형 μ σ² 시험점수, 키, 무게
지수분포 연속형 1/λ 1/λ² 수명, 대기시간

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

확률과 확률변수 단원은 ‘데이터가 왜 그렇게 흩어지고 평균이 생기는가’ 를 수학적으로 설명해주는 단계였다.

  • 확률은 사건의 “가능성”
  • 확률변수는 사건의 “수치화된 결과”
  • 확률분포는 그 결과들이 “어떻게 나타나는가”를 표현한다.

데이터 분석의 기초는 결국 확률분포를 이해하는 데서 시작된다.


🚀 적용점

 

  • EDA 이후 단계로 확률분포를 분석해 데이터 형태 예측
  • 이항·포아송 분포: 고객 방문, 제품 불량 등 확률적 사건 분석
  • 정규분포 근사: 표본평균 분포 추정, 통계적 추론(가설검정) 기초
  • Python 실습 팁
import numpy as np
import scipy.stats as stats

# 이항분포
stats.binom.pmf(k=3, n=10, p=0.4)

# 정규분포 확률밀도
stats.norm.pdf(x=0, loc=0, scale=1)

 

반응형