데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-2

Leah (리아) 2025. 11. 9. 14:11
반응형

 Chapter 01. 기초통계_기초과정

 

데이터의 이해 - 그래프와 기초 통계

 

주요 개념 요약

데이터 분석의 출발점은 데이터의 구조와 특성을 이해하는 것이다.
이를 위해 먼저 데이터를 구분하고, 시각화(그래프)를 통해 탐색한 뒤,
수치적 요약(통계량)으로 데이터를 해석한다.

즉,

데이터 → 탐색(EDA) → 시각화 → 통계적 요약
이 흐름이 데이터 분석의 기본 골격이다.


1. 변수(Variable)와 데이터의 종류

변수(Variable)
: 관측된 데이터에서 변화 가능한 속성이나 특징을 의미한다.
통계에서는 관측된 값들을 변수로, 그 값들의 모음을 데이터(Data)라고 부른다.

 

변수의 구분

구분 설명 세부 유형
질적 자료(Qualitative) 숫자의 크기에 의미가 없는 범주형 데이터 명목형 (성별, 지역) / 순서형 (만족도, 교육수준)
양적 자료(Quantitative) 수치의 크기에 의미가 있는 데이터 이산형 (건수, 개수) / 연속형 (시간, 길이, 온도 등)

📌 질적 자료는 “구분”, 양적 자료는 “비교”가 핵심이다.


2. 탐색적 데이터 분석 (EDA)

EDA(Exploratory Data Analysis)는 데이터를 탐색하고 요약하는 분석 단계이다.
도표, 그래프, 통계량 등을 사용해 데이터의 패턴·이상치·관계를 찾는다.

 

목적

  1. 분석 초기 단계에서 데이터의 구조와 분포를 파악
  2. 변수 간 관계, 이상치(outlier) 탐지
  3. 모델링 전 적절한 가설 설정 및 데이터 품질 평가

EDA는 “데이터를 이해하기 위한 탐색 과정”이며,
분석 방향을 결정짓는 가장 중요한 출발점이다.


3. 데이터 시각화 (Data Visualization)

데이터 시각화는 수치 정보를 시각적으로 전달하는 과정이다.
복잡한 데이터를 한눈에 파악하게 하며, 정보의 흐름을 명확히 표현한다.

구분 주요 시각화 방법
시간 시각화 막대 그래프, 누적 그래프, 점그래프
분포 시각화 파이 차트, 히스토그램, 트리맵
관계 시각화 산점도, 버블차트
비교 시각화 히트맵, 스타차트, 평행좌표
공간 시각화 지도 맵핑(Map)

목적: 단순히 ‘보여주는 것’이 아니라 ‘이해하게 만드는 것’


4. 기초 통계량 (Basic Statistics)

EDA로 시각적으로 데이터를 본 후에는,
데이터의 대표값과 변동성을 수치로 요약하는 단계가 필요하다.
이때 사용하는 것이 기초 통계량이다.


5. 중심 경향치 (Central Tendency)

데이터의 중심을 나타내는 대표값

구분 설명 특징
평균(mean) 모든 값을 더해 개수로 나눈 값 이상치 영향 큼
중앙값(median) 데이터를 정렬했을 때 가운데 값 이상치에 둔감
최빈값(mode) 가장 자주 나타나는 값 범주형 데이터 분석에 유용

평균은 균형점, 중앙값은 중앙위치, 최빈값은 빈도 대표를 의미한다.


6. 산포도 (Dispersion)

데이터가 얼마나 흩어져 있는지를 나타내는 지표.
중심만 알면 전체를 오해할 수 있기 때문에 산포를 함께 고려해야 한다.

구분 의미 계산식
범위(Range) 최대값 – 최소값 R = max – min
사분위수(Quartile) 데이터를 4등분하는 경계값 IQR = Q3 – Q1
백분위수(Percentile) 누적 분포의 백분율 값 예: 90백분위 → 상위 10%
분산(Variance) 데이터가 평균에서 떨어진 정도의 제곱 s² = (Σ(x - x̄)²)/(n-1)
표준편차(Standard Deviation) 분산의 제곱근 s = √s²
변동계수(CV) 표준편차 ÷ 평균 (상대적 산포 비교) CV = s / x̄

7. 분포의 형태

데이터의 모양을 결정하는 두 가지 주요 개념은 왜도(skewness)첨도(kurtosis) 이다.

구분 설명  시각적 특징
왜도(Skew) 분포의 비대칭 정도 오른쪽 꼬리 길면 + (우측 꼬리), 왼쪽 꼬리 길면 − (좌측 꼬리)
첨도(Kurtosis) 꼬리의 두꺼운 정도 K≈3 정규분포, K>3 뾰족, K<3 평평

정규분포(normal distribution)는 평균, 중앙값, 최빈값이 일치하며
분산이 커질수록 분포가 넓어지고, 작을수록 좁아진다.


8. 분포 형태의 해석

형태 평균·중앙값·최빈값 관계 예시
대칭분포 평균 = 중앙값 = 최빈값 키, 시험점수 등
오른쪽 꼬리 분포 평균 > 중앙값 > 최빈값 소득, 거래금액 등
왼쪽 꼬리 분포 평균 < 중앙값 < 최빈값 손실, 저가상품 등

9. 시각화 예시

  • 도수분포표(Frequency Table) → 데이터의 빈도 확인
  • 파이차트 / 막대그래프 / 히스토그램 → 항목별 비율과 분포 비교
  • 복합차트(Combination Chart) → 거래량과 주가처럼 다른 변수의 동시 시각화
  • 정규분포 그래프 → 평균·분산 변화에 따른 곡선 형태 비교

10. 시각화 도구

구분 대표 툴
데이터 수집 및 처리 Oracle, Hadoop, Spark, Cloudera
분석 툴 Python, R, SAS, TensorFlow
시각화 툴 Tableau, Excel, Power BI, TIBCO Spotfire
PythonR 은 오픈소스 기반으로 시각화·EDA에 널리 쓰인다.
Matplotlib, Seaborn, ggplot2 등은 분석과 시각화의 핵심 라이브러리다.

 

 

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

데이터의 이해는 결국

“데이터를 눈으로 보고, 수치로 이해하는 과정”이다.

  • 변수 구분 → 데이터를 올바르게 읽는 첫걸음
  • EDA → 데이터를 탐색하고 구조를 파악
  • 시각화 → 패턴을 시각적으로 표현
  • 통계량 계산 → 수치로 특징을 요약

즉,

그래프는 ‘이해의 도구’, 통계량은 ‘설명의 언어’이다.


🚀 적용점

 

  • EDA 실습 : pandas describe(), value_counts(), seaborn pairplot()
  • 시각화 응용 : boxplot()으로 사분위수 시각화, distplot()으로 분포 형태 분석
  • 통계해석 : 평균 ± 표준편차로 데이터 범위 요약
  • 보고서 작성 시 : “평균 82.4 ± 5.1점 (정규분포 근사)” 식으로 표현

 

반응형