Chapter 02. 기초통계_심화과정
머신러닝 알고리즘 기본 개념 정리
주요 개념 요약
- 머신러닝은 Task, Experience, Performance(T/E/P) 구조로 정의됨
- 학습 방식은 지도학습 / 비지도학습 / 강화학습 세 가지
- 지도학습: 분류·회귀 / 비지도학습: 군집·차원축소 / 강화학습: 보상 기반 학습
- 의사결정나무, 앙상블(Bagging, Boosting)은 대표적인 예측 모델
- 추천 시스템의 핵심인 협업 필터링(CF) 도 머신러닝 한 영역
- 전체 흐름: 데이터 수집 → 분석 설계 → 모델 개발 → 모델 적용
본문 정리
1) 머신러닝이란?T. Mitchell의 정의에 따르면 머신러닝은 다음 조건을 만족해야 한다.즉,
데이터(E)를 보고
문제를(T) 해결하려고
정확도(P)를 높이는 방향으로
점점 '똑똑해지는’ 구조이다.
2) 머신러닝의 3대 학습 방식라벨이 있는 데이터를 학습
- 입력 X → 정답 Y 제공
- 목표: 정답을 가장 잘 예측하는 모델 만들기
- 대표 알고리즘
- 분류: SVM, KNN, Logistic Regression
- 회귀: Linear Regression
예:
고객 나이/지역으로 “구매/미구매” 예측하기
주식 데이터로 내일 종가 예측하기
✔ 비지도학습(Unsupervised Learning)
- 데이터의 구조·유형·패턴 탐색
- 대표 알고리즘
- 군집화(K-means)
- 차원축소(PCA)
예:
고객 행동을 보고 자연스럽게 ‘유사 행동 그룹’을 나누는 경우
✔ 강화학습(Reinforcement Learning)
- 게임 AI
- 로봇 제어
- 광고 입찰 전략
3) 머신러닝 시스템 구조
- 데이터 수집
- 데이터 소스 정의, 정제, 저장
- 분석 설계
- 문제 정의, 가설 설정, 변수 탐색(EDA)
- 모델 개발
- 적합한 알고리즘 선택
- 학습 / 검증 / 튜닝
- 성능 평가
- 모델 적용
- 운영 환경 배포
- 모니터링 및 유지보수
→ 데이터 분석 전 과정이 유기적으로 연결됨.
4) 의사결정나무(Decision Tree)
- 장점: 해석력 높음
- 단점: 과적합 위험
- 분기 기준: 정보이득, 지니계수
결과가 ‘트리 형태’로 시각화되어
비전공자도 “왜 이런 결론이 나왔지?”를 쉽게 이해할 수 있는 모델.
5) 앙상블 모델
- 여러 모델을 “병렬” 학습 후 평균/투표
- 대표: 랜덤 포레스트(Random Forest)
- 장점: 분산 감소, 안정된 성능
✔ Boosting(부스팅)
- 약한 모델을 “순차적으로” 강화
- 에러가 큰 데이터에 가중치를 더하며 학습
- 대표: XGBoost, LightGBM, AdaBoost
- 장점: 높은 정확도, 강력한 성능
→ 실전 머신러닝 대회(Kaggle)에서 가장 많이 쓰이는 기법.
6) 추천 시스템 – 협업 필터링(CF)✔ User-based CF
- “나와 취향이 비슷한 사용자”를 먼저 찾고
- 그 사용자가 좋아한 아이템을 추천
✔ Item-based CF
- “내가 좋아한 아이템과 비슷한 아이템”을 추천
- 쿠팡/네이버 쇼핑에서 많이 활용
- 사용자 행동 패턴을 기반으로 유사한 취향을 가진 집단을 찾아 추천
대표 알고리즘 두 가지: - ✔ Bagging(배깅)
- 데이터를 조건 분기 형태로 나누면서 예측하는 모델
- 전체 흐름
- 행동 → 보상 → 반복하며 최적 행동 정책을 학습
- 라벨 없이 패턴을 찾는 학습
- ✔ 지도학습(Supervised Learning)
- **경험(E)**을 통해 **작업(T)**의 수행능력을 성능 측정치(P) 기준으로 향상시키는 것.
- 머신러닝은 인공지능(AI)의 한 분야로,
컴퓨터가 명시적인 규칙 없이 데이터의 “패턴”을 스스로 학습하는 기술이다.
* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
💡 생각 정리
머신러닝을 처음 배울 때는 알고리즘 이름이 너무 많아서 막막했지만,
다시 정리해보니 결국 다음 세 가지로 전체가 연결된다는 걸 이해하게 된다.
- 데이터가 있고
- 문제(Task)가 있고
- 그 문제를 해결하는 가장 적절한 방법이 ‘알고리즘’이다.
디자인·기획·분석을 오가며 일을 하는 나에게 중요한 건 “어떤 상황에 어떤 알고리즘을 써야 하는가?”를 판단할 수 있는 프레임이었다.
이번 내용은 그 기준을 다시 명확하게 잡아준 느낌이다.
특히 추천 시스템 CF 구조는 여행 플랫폼 디자인 작업에서도 직접적으로 활용할 수 있는 개념이라 더 와닿았다.
알고리즘 자체보다 사람의 행동 패턴을 이해하는 방식에 더 가까워서 UX와도 굉장히 맞닿아 있다고 느꼈다.
🚀 적용점
- 데이터 분석을 시작할 때 지도/비지도/강화 중 어떤 방식인지 먼저 분류하기
- 머신러닝 기능을 기획할 T/E/P(Task·Experience·Performance)를 문서화해 개발자와 빠르게 같은 그림을 공유하기
- 추천 시스템 설계 시 CF(User-based / Item-based)를 상황에 맞게 선택해 UX에 녹이기
- Kaggle 실습할 때
→ Basic: Decision Tree
→ Strong: RandomForest(Bagging)
→ Best: XGBoost(Boosting)
이런 기본 로드맵으로 적용하기 - 앞으로 만드는 여행/플랫폼 서비스에서 행동 로그 기반 추천·분류 기능을 자연스럽게 기획할 수 있도록 알고리즘의 ‘의도’를 이해하며 설계하기
'데이터' 카테고리의 다른 글
| 제로베이스 데이터사이언스 스쿨 - Part 05. 자료구조&알고리즘 with Python -02 (0) | 2025.11.28 |
|---|---|
| 제로베이스 데이터사이언스 스쿨 - Part 05. 자료구조&알고리즘 with Python -01 (0) | 2025.11.27 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-18 (0) | 2025.11.25 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-17 (0) | 2025.11.24 |
| 제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-16 (0) | 2025.11.23 |