적도 검정(Chi-square Test) 완전 정리
이번 학습에서는 범주형 자료를 대상으로 하는 통계적 가설 검정인 적도 검정(Chi-square test)을 전체 구조부터 세부 유형까지 모두 정리했다. 특히 관찰된 횟수와 기대되는 횟수의 차이가 유의미한지를 확인하는 과정을 중심으로 다양한 실전 예시를 함께 다뤘다.
1. 범주형 자료란?
범주형 자료(categorical data)란
관찰된 결과를 특정 기준에 따라 분류한 값(도수 형태)을 말한다.
예시
- 지역별 정당 지지율
- 성별에 따른 핸드폰 브랜드 선호
- 주사위 눈금의 등장 횟수
이런 데이터는 평균이나 분산 같은 연속형 개념으로 다루기 어렵다.
→ 그래서 ‘카이제곱 검정’을 사용한다.
2. 적도검정(Chi-square test)의 전체 구조
적도 검정은 크게 세 가지로 나뉜다.
| 구분 | 의미 |
| 적합도 검정 (Goodness of Fit) | 단일 집단이 특정 분포를 따르는지 검정 |
| 독립성 검정 (Test of Independence) | 두 변수 간의 관련성(독립/종속 여부) 검사 |
| 동질성 검정 (Test of Homogeneity) | 여러 집단이 동일한 분포를 가지고 있는지 검정 |
이를 하나의 그림으로 보면 다음과 같다:
범주형 자료 → 카이제곱 검정 → 적합도/독립성/동질성 검사
3가지 카이제곱 검정 자세히 살펴보기
① 적합도 검정 (Goodness of Fit)
목적
한 개의 범주형 변수가
특정한 분포(기댓값)를 따르는지 확인한다.
사용하는 공식

- OiO_i : 관찰빈도
- EiE_i : 기대빈도
- 자유도 = 범주 수 – 1
예시
“주사위가 공정한지 확인하고 싶다.”
120번 던졌을 때 나온 눈금 빈도
→ [23, 20, 19, 18, 23, 17]
기대빈도는 모두 20
카이제곱 통계량 계산 결과: 1.6
임계값(df=5) = 11.07
→ 1.6 < 11.07 → 귀무가설 기각 불가
즉, 주사위가 공정하지 않다고 볼 근거가 없다.
② 독립성 검정 (Test of Independence)
목적
두 개의 범주형 변수가 서로 관련이 있는지 확인한다.
예시
- 지역(A, B, C) × 정당 지지율(S당, T당)
- 성별 × 흡연 여부
해석 포인트
- p-value > 0.05 → “독립이다(연관 없음)”
- p-value < 0.05 → “독립이 아니다(연관 있음)”
실제 예시
지역별 정당 지지 현황 (총 1000명 조사)
| 구분 | A지역 | B지역 | C지역 |
| 정당S | 198 | 218 | 185 |
| 정당T | 156 | 143 | 100 |
카이제곱 결과:
- χ² = 5.3291
- p-value = 0.06963
p-value > 0.05
→ 귀무가설 기각 불가
즉, 지역과 정당 지지는 독립적이다(관련 없음)
③ 동질성 검정 (Test of Homogeneity)
목적
여러 집단이 같은 분포를 가지는지 검사
예시
남녀가 선호하는 휴대폰 브랜드가 동일한지 확인
| 구분 | A사 | S사 | L사 |
| 남자 | 50 | 30 | 20 |
| 여자 | 50 | 80 | 70 |
카이제곱 결과
- χ² = 19.318
- p-value = 6.38e-05 (<0.05)
→ 귀무가설 기각
즉, 남녀는 휴대폰 브랜드 선호가 서로 다르다.
실전 적용: 산업 데이터 동질성 분석 예시
통계청 산업별 월별 거래 데이터(2021.06~2021.11)를 활용하여
시간 흐름에 따라 산업 구조가 동일한지/변화하는지 분석.
✔ 어떤 산업의 비중이 증가하는가?
✔ 어떤 업종의 비중이 감소하는가?
예시
- 도매 및 소매업의 거래 비중은 약 16~17%로 유지
- 운수업 비중은 13% → 18%로 증가
- 예술·스포츠·여가 분야는 다소 감소
→ 동질성 검정을 적용하면 집단별 변화 여부를 통계적으로 확인할 수 있다.
* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
💡 생각 정리
카이제곱 검정은 연속형이 아닌 범주형 데이터 분석에서 가장 핵심적인 검정 도구라는 점이 명확해졌다.
적합도·독립성·동질성 검정의 차이를 이해하니 실제 데이터를 어떻게 해석해야 하는지 구조가 잡힌다.
특히 독립성과 동질성 검정은 표만 봐서는 판단하기 어려운 ‘변수 간의 관계 구조’를 명확하게 밝혀준다는 점에서 실무 활용도가 매우 높다고 느꼈다.
앞으로 공공데이터나 마케팅 데이터를 다룰 때도 범주형 변수를 맹목적으로 비교하기보다, 통계적 근거로 차이를 검증하는 습관을 들여야겠다는 생각이 들었다.
🚀 적용점
- ✔ 범주형 데이터가 나오면 먼저 적합도·독립성·동질성 중 무엇인지 판별
- ✔ “비율이 달라 보인다”는 직관보다 p-value 기반으로 의사결정
- ✔ A/B 테스트에서
→ 이탈률, 클릭률 등 ‘횟수 기반 비교’에도 활용 가능 - ✔ 마케팅/세일즈에서는
→ 성별·연령별–선호도, 지점별 판매량 등 분석하는 데 필수 - ✔ 공공데이터 분석에서는
→ 지역별 지지도, 병원 진료 비율 등 구조 파악에 유용 - ✔ 데이터 기반 보고서 작성 시
→ “통계적으로 유의한 차이가 있다/없다” 문장을 정확히 쓸 수 있음
'데이터' 카테고리의 다른 글
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-15 (0) | 2025.11.22 |
|---|---|
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-14 (0) | 2025.11.21 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-12 (0) | 2025.11.19 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-11 (0) | 2025.11.18 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-10 (0) | 2025.11.17 |