데이터

제로베이스 데이터사이언스 스쿨 - Part 04. 기초 통계-19

Leah (리아) 2025. 11. 26. 22:35
반응형

Chapter 02. 기초통계_심화과정

머신러닝 알고리즘 기본 개념 정리

 

주요 개념 요약

  • 머신러닝은 Task, Experience, Performance(T/E/P) 구조로 정의됨
  • 학습 방식은 지도학습 / 비지도학습 / 강화학습 세 가지
  • 지도학습: 분류·회귀 / 비지도학습: 군집·차원축소 / 강화학습: 보상 기반 학습
  • 의사결정나무, 앙상블(Bagging, Boosting)은 대표적인 예측 모델
  • 추천 시스템의 핵심인 협업 필터링(CF) 도 머신러닝 한 영역
  • 전체 흐름: 데이터 수집 → 분석 설계 → 모델 개발 → 모델 적용

본문 정리

1) 머신러닝이란?T. Mitchell의 정의에 따르면 머신러닝은 다음 조건을 만족해야 한다.즉,
데이터(E)를 보고
문제를(T) 해결하려고
정확도(P)를 높이는 방향으로
점점 '똑똑해지는’ 구조이다.


2) 머신러닝의 3대 학습 방식라벨이 있는 데이터를 학습

  • 입력 X → 정답 Y 제공
  • 목표: 정답을 가장 잘 예측하는 모델 만들기
  • 대표 알고리즘
    • 분류: SVM, KNN, Logistic Regression
    • 회귀: Linear Regression

예:
고객 나이/지역으로 “구매/미구매” 예측하기
주식 데이터로 내일 종가 예측하기


✔ 비지도학습(Unsupervised Learning)

  • 데이터의 구조·유형·패턴 탐색
  • 대표 알고리즘
    • 군집화(K-means)
    • 차원축소(PCA)

예:
고객 행동을 보고 자연스럽게 ‘유사 행동 그룹’을 나누는 경우


✔ 강화학습(Reinforcement Learning)

  • 게임 AI
  • 로봇 제어
  • 광고 입찰 전략

3) 머신러닝 시스템 구조

  1. 데이터 수집
    • 데이터 소스 정의, 정제, 저장
  2. 분석 설계
    • 문제 정의, 가설 설정, 변수 탐색(EDA)
  3. 모델 개발
    • 적합한 알고리즘 선택
    • 학습 / 검증 / 튜닝
    • 성능 평가
  4. 모델 적용
    • 운영 환경 배포
    • 모니터링 및 유지보수

→ 데이터 분석 전 과정이 유기적으로 연결됨.


4) 의사결정나무(Decision Tree)

  • 장점: 해석력 높음
  • 단점: 과적합 위험
  • 분기 기준: 정보이득, 지니계수

결과가 ‘트리 형태’로 시각화되어
비전공자도 “왜 이런 결론이 나왔지?”를 쉽게 이해할 수 있는 모델.


5) 앙상블 모델

  • 여러 모델을 “병렬” 학습 후 평균/투표
  • 대표: 랜덤 포레스트(Random Forest)
  • 장점: 분산 감소, 안정된 성능

✔ Boosting(부스팅)

  • 약한 모델을 “순차적으로” 강화
  • 에러가 큰 데이터에 가중치를 더하며 학습
  • 대표: XGBoost, LightGBM, AdaBoost
  • 장점: 높은 정확도, 강력한 성능

→ 실전 머신러닝 대회(Kaggle)에서 가장 많이 쓰이는 기법.


6) 추천 시스템 – 협업 필터링(CF)✔ User-based CF

  • “나와 취향이 비슷한 사용자”를 먼저 찾고
  • 그 사용자가 좋아한 아이템을 추천

✔ Item-based CF

  • “내가 좋아한 아이템과 비슷한 아이템”을 추천
  • 쿠팡/네이버 쇼핑에서 많이 활용
  • 사용자 행동 패턴을 기반으로 유사한 취향을 가진 집단을 찾아 추천
    대표 알고리즘 두 가지:
  • ✔ Bagging(배깅)
  • 데이터를 조건 분기 형태로 나누면서 예측하는 모델
  • 전체 흐름
  • 행동 → 보상 → 반복하며 최적 행동 정책을 학습
  • 라벨 없이 패턴을 찾는 학습
  • ✔ 지도학습(Supervised Learning)
  • **경험(E)**을 통해 **작업(T)**의 수행능력을 성능 측정치(P) 기준으로 향상시키는 것.
  • 머신러닝은 인공지능(AI)의 한 분야로,
    컴퓨터가 명시적인 규칙 없이 데이터의 “패턴”을 스스로 학습하는 기술이다.

* 이 글은 제로베이스 데이터사이언스 파트타임 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.


 

💡 생각 정리

머신러닝을 처음 배울 때는 알고리즘 이름이 너무 많아서 막막했지만,
다시 정리해보니 결국 다음 세 가지로 전체가 연결된다는 걸 이해하게 된다.

  1. 데이터가 있고
  2. 문제(Task)가 있고
  3. 그 문제를 해결하는 가장 적절한 방법이 ‘알고리즘’이다.

디자인·기획·분석을 오가며 일을 하는 나에게 중요한 건 “어떤 상황에 어떤 알고리즘을 써야 하는가?”를 판단할 수 있는 프레임이었다.
이번 내용은 그 기준을 다시 명확하게 잡아준 느낌이다.

특히 추천 시스템 CF 구조는 여행 플랫폼 디자인 작업에서도 직접적으로 활용할 수 있는 개념이라 더 와닿았다.
알고리즘 자체보다 사람의 행동 패턴을 이해하는 방식에 더 가까워서 UX와도 굉장히 맞닿아 있다고 느꼈다.


🚀 적용점

 

  • 데이터 분석을 시작할 때 지도/비지도/강화 중 어떤 방식인지 먼저 분류하기
  • 머신러닝 기능을 기획할 T/E/P(Task·Experience·Performance)를 문서화해 개발자와 빠르게 같은 그림을 공유하기
  • 추천 시스템 설계 시 CF(User-based / Item-based)를 상황에 맞게 선택해 UX에 녹이기
  • Kaggle 실습할 때
    → Basic: Decision Tree
    → Strong: RandomForest(Bagging)
    → Best: XGBoost(Boosting)
    이런 기본 로드맵으로 적용하기
  • 앞으로 만드는 여행/플랫폼 서비스에서 행동 로그 기반 추천·분류 기능을 자연스럽게 기획할 수 있도록 알고리즘의 ‘의도’를 이해하며 설계하기

 

반응형