반응형

분류 전체보기 103

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-17

Chapter 02. 기초통계_심화과정 분산분석(ANOVA) 완전 정리1. 주요 개념 요약분산분석(analysis of variance)셋 이상 집단의 평균 차이를 검정하는 방법t-test는 두 집단만 비교 가능, ANOVA는 3개 이상 비교 가능왜 t-test 여러 번 하면 안 되는가?3집단이면 A–B, A–C, B–C 총 3번의 t-test 필요유의수준 0.05 기준, 오류 누적 확률이 증가함2. 분산분석의 핵심 구성요소✔ 실험설계 개념실험에서 결과에 영향을 줄 수 있는 요소: 요인(Factor)요인의 각 조건: 수준(level)실험 단위(관측값): 처리(treatment)✔ 분산분석의 가정각 집단의 평균이 동일하다는 귀무가설실험은 반드시 반복 측정, 랜덤 샘플링독립성 유지 위해 다른 요인(혼재 요인..

데이터 2025.11.24

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-16

Chapter 02. 기초통계_심화과정 다중 회귀분석(Multiple Regression Analysis) 완전 정리주요 개념 요약다중 회귀분석은 두 개 이상의 독립변수(X1, X2, …) 를 사용해 하나의 종속변수(Y)를 예측하는 방법이다.기본 형태는 아래와 같다:단순 회귀(Simple Regression)는 독립변수가 1개지만,다중 회귀(Multiple Regression) 는 2개 이상이다.선형/비선형 여부에 따라 Linear VS Nonlinear 모델로 나뉜다.현실 문제(부동산 가격, 매출, 건강지표 등)에 가장 많이 쓰는 회귀 방식.예시: 보스턴 집값을 예측하는 다중 회귀식은 다음과 같이 구성된다:주택가격=범죄율+방개수+교육지수+…+하위계층비율데이터에는 아래와 같은 변수들이 포함된다:CRIM:..

데이터 2025.11.23

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-15

Chapter 02. 기초통계_심화과정 2. 단순 회귀분석 (Simple Regression Analysis)✨ 주요 개념 요약■ 회귀분석이란?한 변수(X)가 다른 변수(Y)에 어떤 영향을 미치는지 선형적 관계를 추정하는 통계적 방법X로 Y를 예측하는 예측 모델링 기법■ 단순 회귀분석(Simple Regression)독립변수 1개(X) → 종속변수 1개(Y)를 설명기본식:Y = β₀ + β₁X + ε■ OLS(최소제곱법, Least Squares)실제값과 예측값 차이(오차)를 최소화하는 직선 찾기β₀, β₁ 값을 최소제곱법으로 추정■ 분산분석표(ANOVA)회귀가 유의미한지 판단SST = SSR + SSESSR(회귀제곱합): 회귀선이 설명하는 부분SSE(잔차제곱합): 설명 못한 부분F-검정으로 회귀모델의 ..

데이터 2025.11.22

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-14

Chapter 02. 기초통계_심화과정 상관분석 (Correlation Analysis) 1. 상관계수란?두 연속형 변수 간의 선형 관계의 정도를 나타내는 수치범위: -1 ~ 1+1에 가까울수록 강한 양의 상관-1에 가까울수록 강한 음의 상관0 근처면 선형 관계 없음2. 표본 상관계수 r표본 데이터에서 상관정도를 계산할 때 사용​​3. 상관계수 가설검정(1) 가설 수립(2) 검정통계량​(3) 기각기준4. 예시 해설학생들의 키·몸무게 상관계수 r = 0.7966→ 강한 양의 상관t = 5.59, 임계값 = 2.10→ 귀무가설 기각→ 키와 몸무게는 유의미한 양의 상관관계가 있다.✔ 예시 코드(Python) import numpy as npfrom scipy.stats import pearsonrx = [....

데이터 2025.11.21

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-13

적도 검정(Chi-square Test) 완전 정리이번 학습에서는 범주형 자료를 대상으로 하는 통계적 가설 검정인 적도 검정(Chi-square test)을 전체 구조부터 세부 유형까지 모두 정리했다. 특히 관찰된 횟수와 기대되는 횟수의 차이가 유의미한지를 확인하는 과정을 중심으로 다양한 실전 예시를 함께 다뤘다.1. 범주형 자료란?범주형 자료(categorical data)란관찰된 결과를 특정 기준에 따라 분류한 값(도수 형태)을 말한다.예시지역별 정당 지지율성별에 따른 핸드폰 브랜드 선호주사위 눈금의 등장 횟수이런 데이터는 평균이나 분산 같은 연속형 개념으로 다루기 어렵다.→ 그래서 ‘카이제곱 검정’을 사용한다.2. 적도검정(Chi-square test)의 전체 구조적도 검정은 크게 세 가지로 나뉜다..

데이터 2025.11.20

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-12

Chapter 02. 기초통계_심화과정 가설검정(Hypothesis Testing) 가설검정은 ‘데이터가 어떤 주장(가설)을 지지하는가?’를 검증하는 통계적 절차이다.표본에서 얻은 정보를 이용해 모평균, 모비율, 두 집단 간 평균 또는 비율의 차이를 판단하는 데 사용한다.1. 가설검정과 유의수준가설의 구성가설은 크게 두 가지로 구성된다. 1) 귀무가설(H₀, Null Hypothesis)기존 주장, 변화가 없다는 가정연구자가 부정하고 싶은 가설예) 백신 효과가 없다 (μ = 0), 두 평균의 차이가 없다 (μ₁ = μ₂)2) 대립가설(H₁, Alternative Hypothesis)연구자가 주장하고 싶은 내용예) 백신 효과가 있다 (μ ≠ 0), 두 평균이 다르다 (μ₁ ≠ μ₂)2. 오류의 종류제1종 ..

데이터 2025.11.19

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-11

Chapter 02. 기초통계_심화과정 1. 가설검정과 유의수준의 개념핵심 요약가설검정(hypothesis testing) 이란 데이터를 기반으로 어떤 주장(가설)이 맞는지를 검증하는 절차.우리가 검증하려는 대상은 귀무가설 H₀이며, 보통 “변화 없음”, “효과 없음”처럼 보수적인 가설임.그 반대 주장인 대립가설 H₁은 우리가 입증하고 싶은 방향을 나타냄.통계적 판단을 위해 유의수준 α, 검정통계량, 기각역, p-value 개념을 사용함.주요 개념 정리 ■ 귀무가설 H₀ (Null Hypothesis)기본적으로 “아무 변화 없음”이라는 가정예:코로나 백신의 효과는 없다 → H₀: μ = 0A제품과 B제품의 평균 차이는 없다 → H₀: μ₁ = μ₂■ 대립가설 H₁ (Alternative Hypothesi..

데이터 2025.11.18

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-10

Chapter 01. 기초통계_기초과정 추정(Estimation) – 모비율/모평균/모분산 추정 완전 정리1. 주요 개념 요약① 점추정 & 구간추정점추정: 모수가 가질 값 하나를 추정구간추정: 모수가 존재할 가능성이 있는 구간을 제시신뢰수준 95% → 오차가 발생할 확률 5% → 유의수준 α = 0.05② 모비율(p)의 점추정 & 분산 비율(class)이 1이면 성공, 0이면 실패라고 둘 때표본에서 성공한 개수 X ~ B(n, p)점추정량: p̂ = X/n기대값: E(p̂) = p분산: Var(p̂) = p(1-p)/n③ 모비율 구간추정 CLT 조건 필요:np > 5n(1 – p) > 5신뢰구간 공식:​​④ 모비율 차이(p₁ – p₂) 추정점추정: p̂₁ – p̂₂분산:​신뢰구간:​​⑤ 모평균 차이(μ..

데이터 2025.11.17

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-9

Chapter 01. 기초통계_기초과정 추정(Estimation) -점추정, 구간추정, 신뢰구간 개념 총정리 주요 개념 요약추정(estimation): 표본을 이용해 모수(모평균, 모분산 등)를 근사적으로 계산하는 과정추정량(estimator): 표본 평균·표본 분산처럼 모수를 추정하는 데 사용되는 통계량점추정(point estimation): 하나의 값으로 모수를 추정구간추정(interval estimation): 모수가 포함될 가능성이 높은 구간을 제시좋은 추정량의 조건: 일치성, 불편성, 효율성, 평균오차제곱(MSE) 최소신뢰수준(Confidence level): 추정 구간 안에 모수가 존재할 확률Z-신뢰구간 / t-신뢰구간: 모분산을 알 때는 Z, 모분산을 모를 때는 t 사용표본의 크기 결정: 허..

데이터 2025.11.16

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-8

Chapter 01. 기초통계_기초과정 표본분포 정리: 카이제곱·t·F 분포까지 한 번에 이해하기 주요 개념카이제곱 분포(χ²)정규분포를 따르는 확률변수들 제곱합 → 카이제곱 분포분산 추정, 적합도 검정 등에 활용t 분포모표준편차를 모를 때 표본표준편차로 대체해 추론할 때 사용자유도가 커질수록 정규분포에 수렴F 분포두 개의 독립 표본 분산의 비율분산분석(ANOVA)에 필수1. 카이제곱 분포(Chi-square distribution)정의표준정규분포를 따르는 변수 Z1,Z2,...,Zn 이 있을 때,여기서 vvv는 자유도(degree of freedom).pdf평균과 분산감마분포와의 관계카이제곱 분포는 감마분포의 특수한 경우이며 로 나타낼 수 있음.활용분산에 대한 추론적합도 검정 (Goodness-of..

데이터 2025.11.15
반응형