데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-14

Leah (리아) 2025. 11. 21. 15:30
반응형

 Chapter 02. 기초통계_심화과정

 

상관분석 (Correlation Analysis)

 

1. 상관계수란?

  • 두 연속형 변수 간의 선형 관계의 정도를 나타내는 수치
  • 범위: -1 ~ 1
    • +1에 가까울수록 강한 양의 상관
    • -1에 가까울수록 강한 음의 상관
    • 0 근처면 선형 관계 없음

2. 표본 상관계수 r

  • 표본 데이터에서 상관정도를 계산할 때 사용


3. 상관계수 가설검정

(1) 가설 수립

(2) 검정통계량

(3) 기각기준


4. 예시 해설

  • 학생들의 키·몸무게 상관계수 r = 0.7966
    → 강한 양의 상관
  • t = 5.59, 임계값 = 2.10
    → 귀무가설 기각
    키와 몸무게는 유의미한 양의 상관관계가 있다.

✔ 예시 코드(Python)

 
import numpy as np
from scipy.stats import pearsonr

x = [...]
y = [...]

r, p = pearsonr(x, y)
print(r, p)

 

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

상관분석은 두 변수 사이의 관계를 직관적으로 확인할 수 있는 가장 기본적이면서도 강력한 분석 방법이라는 점을 다시 한 번 느꼈다. 단순히 r 값이 크다고 해서 모든 관계를 단정 지을 수 없고, 상관이 높아도 인과가 반드시 존재하는 것은 아니라는 점도 중요하게 받아들였다. 그래프 형태를 통해 선형 관계인지 비선형 관계인지 해석하는 시각적 이해도 매우 유용하다고 느꼈다. 또한 상관계수 검정 과정에서 t값을 계산해 유의성을 판단하는 절차가 실제 데이터 분석 실무와 가깝다는 점도 인상 깊었다.


🚀 적용점

 

  • 실제 프로젝트에서 KPI 간의 관계를 빠르게 파악할 때 상관분석을 활용할 수 있음
  • A/B테스트 전 변수 간 상관성을 확인해 혼란 변수를 찾는 데 사용할 수 있음
  • 머신러닝 전처리 단계에서 다중공선성을 탐지할 때도 상관계수 행렬을 적극 활용 가능
  • 다이어트·운동 데이터, 고객 행동 데이터, 제품 사용량 등 다양한 일상·업무 데이터에 바로 적용 가능

 

반응형