데이터

제로베이스 데이터사이언스 스쿨 - Part 03. 기초 수학-21, Part 04. 기초 통계-1

Leah (리아) 2025. 11. 8. 19:29
반응형

Part 03. 기초 수학 Chapter 02. 기초수학 문제풀이

 

확률(Probability) & 기초 통계(Statistics)

 

주요 개념

이번 수업에서는 경우의 수와 확률의 기본 개념을 실제 파이썬 코드로 구현하고,
이를 기반으로 통계 분석의 출발점을 학습했다.

확률은 특정 사건이 일어날 가능성을 전체 경우의 수 중 일부의 비율로 표현한다.
즉,

확률 = (유리한 사건의 수) / (전체 경우의 수)

이 개념이 이후 통계의 모든 계산 — 평균, 분산, 회귀, 머신러닝 확률모델 — 의 기초가 된다.


1. 확률 실습 문제 (꽝·선물 예제)

💡 문제 요약

박스에 ‘꽝’ 6장, ‘선물’ 4장이 있을 때
3장을 뽑아 ‘꽝 3장’ 혹은 ‘선물 3장’을 뽑을 확률(%)을 구하라.

 

즉, 10장의 전체 조합 중 특정 조합(꽝 3장 or 선물 3장)이 나올 확률이다.


코드 예시

def proFun():
    numN = int(input('numN 입력: '))
    numR = int(input('numR 입력: '))
    resultP = 1
    resultR = 1

    # 순열 (nPr)
    for n in range(numN, (numN - numR), -1):
        resultP *= n

    # r! 계산
    for n in range(numR, 0, -1):
        resultR *= n

    # 조합 (nCr)
    resultC = int(resultP / resultR)
    return resultC


# 전체 경우의 수
sample = proFun()
print('sample:', sample)

# 꽝 3장을 뽑을 경우
event1 = proFun()
print('event1:', event1)

# 선물 3장을 뽑을 경우
event2 = proFun()
print('event2:', event2)

probability = (event1 * event2) / sample
print('probability: {}%'.format(round(probability * 100, 2)))

실행 예시

numN 입력: 10
numR 입력: 3
sample: 120

numN 입력: 6
numR 입력: 3
event1: 20

numN 입력: 4
numR 입력: 3
event2: 4

probability: 0.67%

 

즉, 꽝 3장과 선물 3장이 동시에 나올 확률은 약 0.67%로 매우 희박하다.
이 과정을 통해 조합(Combination) 개념이 실제 확률 계산에서 어떻게 쓰이는지를 체감할 수 있었다.

 

 

Part 04. 기초 통계 Chapter 01. 기초통계_기초과정

 

통계학(Statistics) Introduce

 

개념 요약

통계학은 데이터를 관찰 → 분석 → 해석 → 예측 및 의사결정으로 연결하는 학문이다.

데이터 → 통계적 분석 → 예측 및 의사결정

  • 기술통계학(Descriptive Statistics)
    → 수집된 데이터를 요약·설명 (예: 평균, 중앙값, 표준편차 등)
  • 추론통계학(Inferential Statistics)
    → 표본 데이터를 통해 전체 모집단의 특성을 추정 (예: 신뢰구간, 가설검정 등)

즉, 기술통계는 “지금 있는 데이터의 요약”, 추론통계는 “보지 못한 데이터의 추정”이다.


데이터 사이언스 흐름

통계는 데이터 분석 전체 과정의 출발점으로서 다음 단계들과 연결된다:

단계 주요 내용 사용 도구
통계 (Statistics) 가설 수립 → 검증, 기술·추론 통계 분석 Python, R, Excel
데이터 마이닝 (Data Mining) 패턴 탐색, 군집/연관 분석, 예측 모델링 SAS, R Studio
빅데이터 (Big Data) 대용량 데이터 처리, 분산 분석 Hadoop, Spark
AI (인공지능) 머신러닝·딥러닝으로 예측 자동화 TensorFlow, PyTorch

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

확률을 직접 코드로 구현해보니 ‘경우의 수’와 ‘조합 계산’이 추상적 수식이 아니라 실제 데이터 샘플링 과정임을 이해할 수 있었다.

또한 통계학의 출발점이 “데이터에서 규칙을 찾고, 이를 바탕으로 미래를 예측하는 것”임을 체감했다.
즉, 확률 → 통계 → 머신러닝으로 이어지는 사고 구조를 처음으로 명확히 연결할 수 있었다.


🚀 적용점

 

  • 확률 개념 : A/B 테스트, 설문 샘플링, 비즈니스 이벤트 분석
  • 통계 개념 : 평균·분산 계산, 데이터 이상치 탐지
  • 확장 응용 : 추후 머신러닝의 확률모델(예: Naive Bayes, Logistic Regression)로 자연스럽게 이어짐

 

반응형