데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-19

Leah (리아) 2025. 11. 26. 22:35

Chapter 02. 기초통계_심화과정

머신러닝 알고리즘 기본 개념 정리

주요 개념 요약

머신러닝은 Task, Experience, Performance(T/E/P) 구조로 정의됨
학습 방식은 지도학습 / 비지도학습 / 강화학습 세 가지
지도학습: 분류·회귀 / 비지도학습: 군집·차원축소 / 강화학습: 보상 기반 학습
의사결정나무, 앙상블(Bagging, Boosting)은 대표적인 예측 모델
추천 시스템의 핵심인 협업 필터링(CF) 도 머신러닝 한 영역
전체 흐름: 데이터 수집 → 분석 설계 → 모델 개발 → 모델 적용

본문 정리

1) 머신러닝이란?T. Mitchell의 정의에 따르면 머신러닝은 다음 조건을 만족해야 한다.즉,
데이터(E)를 보고
문제를(T) 해결하려고
정확도(P)를 높이는 방향으로
점점 '똑똑해지는’ 구조이다.

2) 머신러닝의 3대 학습 방식라벨이 있는 데이터를 학습

입력 X → 정답 Y 제공
목표: 정답을 가장 잘 예측하는 모델 만들기
대표 알고리즘
- 분류: SVM, KNN, Logistic Regression
- 회귀: Linear Regression

예:
고객 나이/지역으로 “구매/미구매” 예측하기
주식 데이터로 내일 종가 예측하기

✔ 비지도학습(Unsupervised Learning)

데이터의 구조·유형·패턴 탐색
대표 알고리즘
- 군집화(K-means)
- 차원축소(PCA)

예:
고객 행동을 보고 자연스럽게 ‘유사 행동 그룹’을 나누는 경우

✔ 강화학습(Reinforcement Learning)

게임 AI
로봇 제어
광고 입찰 전략

3) 머신러닝 시스템 구조

데이터 수집
- 데이터 소스 정의, 정제, 저장
분석 설계
- 문제 정의, 가설 설정, 변수 탐색(EDA)
모델 개발
- 적합한 알고리즘 선택
- 학습 / 검증 / 튜닝
- 성능 평가
모델 적용
- 운영 환경 배포
- 모니터링 및 유지보수

→ 데이터 분석 전 과정이 유기적으로 연결됨.

4) 의사결정나무(Decision Tree)

장점: 해석력 높음
단점: 과적합 위험
분기 기준: 정보이득, 지니계수

결과가 ‘트리 형태’로 시각화되어
비전공자도 “왜 이런 결론이 나왔지?”를 쉽게 이해할 수 있는 모델.

5) 앙상블 모델

여러 모델을 “병렬” 학습 후 평균/투표
대표: 랜덤 포레스트(Random Forest)
장점: 분산 감소, 안정된 성능

✔ Boosting(부스팅)

약한 모델을 “순차적으로” 강화
에러가 큰 데이터에 가중치를 더하며 학습
대표: XGBoost, LightGBM, AdaBoost
장점: 높은 정확도, 강력한 성능

→ 실전 머신러닝 대회(Kaggle)에서 가장 많이 쓰이는 기법.

6) 추천 시스템 – 협업 필터링(CF)✔ User-based CF

“나와 취향이 비슷한 사용자”를 먼저 찾고
그 사용자가 좋아한 아이템을 추천

✔ Item-based CF

“내가 좋아한 아이템과 비슷한 아이템”을 추천
쿠팡/네이버 쇼핑에서 많이 활용

사용자 행동 패턴을 기반으로 유사한 취향을 가진 집단을 찾아 추천
대표 알고리즘 두 가지:
✔ Bagging(배깅)
데이터를 조건 분기 형태로 나누면서 예측하는 모델
전체 흐름
행동 → 보상 → 반복하며 최적 행동 정책을 학습
라벨 없이 패턴을 찾는 학습
✔ 지도학습(Supervised Learning)
**경험(E)**을 통해 **작업(T)**의 수행능력을 성능 측정치(P) 기준으로 향상시키는 것.
머신러닝은 인공지능(AI)의 한 분야로,
컴퓨터가 명시적인 규칙 없이 데이터의 “패턴”을 스스로 학습하는 기술이다.

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.

💡 생각 정리

머신러닝을 처음 배울 때는 알고리즘 이름이 너무 많아서 막막했지만,
다시 정리해보니 결국 다음 세 가지로 전체가 연결된다는 걸 이해하게 된다.

데이터가 있고
문제(Task)가 있고
그 문제를 해결하는 가장 적절한 방법이 ‘알고리즘’이다.

디자인·기획·분석을 오가며 일을 하는 나에게 중요한 건 “어떤 상황에 어떤 알고리즘을 써야 하는가?”를 판단할 수 있는 프레임이었다.
이번 내용은 그 기준을 다시 명확하게 잡아준 느낌이다.

특히 추천 시스템 CF 구조는 여행 플랫폼 디자인 작업에서도 직접적으로 활용할 수 있는 개념이라 더 와닿았다.
알고리즘 자체보다 사람의 행동 패턴을 이해하는 방식에 더 가까워서 UX와도 굉장히 맞닿아 있다고 느꼈다.

🚀 적용점

데이터 분석을 시작할 때 지도/비지도/강화 중 어떤 방식인지 먼저 분류하기
머신러닝 기능을 기획할 T/E/P(Task·Experience·Performance)를 문서화해 개발자와 빠르게 같은 그림을 공유하기
추천 시스템 설계 시 CF(User-based / Item-based)를 상황에 맞게 선택해 UX에 녹이기
Kaggle 실습할 때
→ Basic: Decision Tree
→ Strong: RandomForest(Bagging)
→ Best: XGBoost(Boosting)
이런 기본 로드맵으로 적용하기
앞으로 만드는 여행/플랫폼 서비스에서 행동 로그 기반 추천·분류 기능을 자연스럽게 기획할 수 있도록 알고리즘의 ‘의도’를 이해하며 설계하기

'데이터' 카테고리의 다른 글

제로베이스 데이터사이언스 스쿨 - Part 05. 자료구조&알고리즘 with Python -02 (0)	2025.11.28
제로베이스 데이터사이언스 스쿨 - Part 05. 자료구조&알고리즘 with Python -01 (0)	2025.11.27
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-18 (0)	2025.11.25
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-17 (0)	2025.11.24
제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-16 (0)	2025.11.23

현재글제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-19

기억보단 기록을 위한 공부

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-19

Chapter 02. 기초통계_심화과정

머신러닝 알고리즘 기본 개념 정리

주요 개념 요약

본문 정리

💡 생각 정리

🚀 적용점

'데이터' 카테고리의 다른 글

'데이터'의 다른글

티스토리툴바

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-19

Chapter 02. 기초통계_심화과정

머신러닝 알고리즘 기본 개념 정리

주요 개념 요약

본문 정리

💡 생각 정리

🚀 적용점

'데이터' 카테고리의 다른 글

'데이터'의 다른글

관련글

티스토리툴바