반응형

분류 전체보기 103

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 02-5

Chapter 02. 데이터 핸들링을 위한 Numpy와 Pandas 데이터 병합과 요약 (Numpy와 Pandas) 1. 데이터 병합 (merge 함수와 JOIN)merge 함수는 SQL의 JOIN 기능과 동일하게 작동하여 두 데이터프레임을 결합합니다.병합 시 기준이 되는 열(조인 키)을 설정해야 하며, 다양한 인자를 통해 조인 조건을 지정할 수 있습니다.주요 인자들:left, right: 병합할 두 개의 데이터프레임on: 공통된 키 컬럼 (두 데이터프레임 모두 포함)left_on, right_on: 키 컬럼 이름이 서로 다를 때 사용left_index, right_index: 인덱스를 조인 키로 활용할 때 사용how: 조인 방식 지정 (기본값은 "inner")inner: 공통 키만 병합left: 왼쪽..

데이터 2025.09.25

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 02-4

Chapter 02. 데이터 핸들링을 위한 Numpy와 Pandas 데이터 필터링01. loc와 iloc 인덱서loc: 라벨(명시적 인덱스)을 기준으로 데이터 선택, 조건 필터링 가능iloc: 숫자(암묵적 인덱스)를 기준으로 데이터 선택차이점: loc는 슬라이싱 시 마지막 인덱스를 포함하지만, iloc는 포함하지 않음02. 행 및 열 선택과 제거열 선택df['col'] # Series 반환df[['col']] # DataFrame 반환df[['col1','col2']] # 여러 열 선택 행/열 제거 → drop 메서드axis=0: 행 제거axis=1: 열 제거inplace=True: 원본 데이터 수정03. 조건 연산을 이용한 필터링조건 연산자비교 연산자: ==, >, >=b..

데이터 2025.09.24

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 02-3

Chapter 02. 데이터 핸들링을 위한 Numpy와 Pandas 데이터 필터링 (Numpy와 Pandas)Pandas에서 데이터를 효율적으로 선택하고 관리하는 방법인 데이터 필터링을 다루었다. 1. loc와 iloc 인덱서loc: 명시적 인덱스(라벨) 를 이용해 데이터를 선택. 행과 열의 이름을 직접 지정할 수 있으며, 조건 기반 필터링에도 자주 사용된다. 예를 들어 특정 학생 이름이나 제품명을 기준으로 데이터를 선택할 때 유용하다.iloc: 암묵적 인덱스(숫자) 를 이용해 데이터를 선택. 데이터프레임의 순서를 기반으로 행과 열을 지정한다.차이점: loc는 슬라이싱 시 마지막 인덱스를 포함하지만, iloc는 포함하지 않는다. 즉, df.loc[1:3]은 1~3까지 포함하지만, df.iloc[1:3]은..

데이터 2025.09.23

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 02-2

Chapter 02. 데이터 핸들링을 위한 Numpy와 Pandas Chapter 02. Pandas 기초01. Pandas란?표 형식 데이터를 다루는 라이브러리Numpy 기반으로 빠른 연산 지원주요 데이터 구조: Series(1차원), DataFrame(2차원)엑셀·SQL 테이블처럼 직관적으로 사용 가능Matplotlib과 연동되어 간단한 그래프 시각화 가능 02. Series 자료형구조: 데이터(ndarray) + 인덱스 + 데이터 타입생성 방법import pandas as pd# 리스트로 생성s1 = pd.Series([1, 2, 3, 4])s2 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])# 데이터 타입 지정s3 = pd.Series([1, 2, ..

데이터 2025.09.23

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 02-1

Chapter 02. 데이터 핸들링을 위한 Numpy와 Pandas 01. Numpy란?Numpy는 파이썬에서 숫자 데이터를 효율적으로 처리하기 위한 핵심 라이브러리입니다.주요 특징:빠르고 메모리 효율적인 배열 연산 지원파이썬 리스트보다 강력한 다차원 배열(ndarray) 제공선형대수, 푸리에 변환, 난수 생성 등 다양한 수학 함수 포함활용 분야: 데이터사이언스, 머신러닝, 과학적 컴퓨팅 등02. Numpy 배열(ndarray)리스트와의 차이리스트: 다양한 타입을 혼합해 저장 가능Numpy 배열: 동일한 타입만 저장 가능, 더 빠르고 메모리 효율적생성 방법import numpy as np# 기본 생성arr = np.array([1, 2, 3, 4])# 초기화 배열np.zeros(5) ..

데이터 2025.09.21

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 01-7

Chapter 01. 데이터 분석가에게 꼭 필요한 기초 문법 모듈과 패키지 기초모듈과 패키지 구성모듈과 패키지는 다른 사람이 만들어둔 파이썬 파일 • 모듈은 클래스와 함수의 집합인 파이썬 파일(확장자: py)입니다. • 패키지는 여러 모듈의 집합으로 폴더입니다. import문import문은 모듈과 패키지를 불러올 때 사용 • 모듈과 패키지를 불러오면, 거기에 있는 다양한 클래스와 함수를 사용할 수 있다.import 모듈명 # 모듈 불러오기모듈명.함수명 # 모듈 내 함수 사용하기모듈명.클래스명 # 모듈 내 클래스 사용하기import 모듈명 as 축약모듈명 # 모듈 불러오기축약모듈명.함수명 # 모듈 내 함수 사용하기축약모듈명.클래스명 # 모듈 내 클래스 사용하기 from import문from을 사용해서 특..

데이터 2025.09.21

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 01-6

Chapter 01. 데이터 분석가에게 꼭 필요한 기초 문법 클래스 기초클래스클래스는 객체를 만들기 위한 틀이고, 객체는 클래스로부터 만든 자료형 • type 함수는 객체의 타입을 확인하기 위한 함수로, 어느 클래스로부터 나왔는지 알려줌• 예를 들어, int 자료형은 int 클래스에서 만들어진 객체로 이들은 같은 틀에서 나왔으므로 서로 유사한 성질이 있음.• 데이터 분석에 자주 사용되는 객체를 이해하는데 주로 필요• 모델링을 할 때는 모델을 만드는 틀을 만들어서 모델 객체를 만들때 클래스를 활용 모델클래스1.학습 기능 2. 예측 기능 3. 모델 속성 ---> 모델 객체 클래스가 필요한 이유: 모델 예시y = ax + b라는 단순한 모델을 만들때도 클래스 사용 유무에 따라 효율 차이가 난다. * 클래스 ..

데이터 2025.09.20

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 01-5

Chapter 01. 데이터 분석가에게 꼭 필요한 기초 문법 파일 입출력 기초open 함수open() 함수는 파일을 열기 위해 사용합니다. open() 함수는 파일 경로와 함께 파일 모드를 지정할 수 있음. • ‘r’: 읽기 모드 (기본값, 파일이 없으면 오류가 발생) • ‘w’: 쓰기 모드 (파일이 없으면 생성, 있으면 덮어씀) • ‘a’: 추가 모드 (파일이 없으면 생성, 있으면 덧붙임) • ‘b’: 바이너리 모드 (주로 파이썬 객체 자체를 핸들링할 때 사용)# 파일을 읽기 모드로 열기file = open("example.txt", "r")file.close() * open 함수를 사용한 뒤에는 반드시 close()를 이용하여 닫아줘야 함. open과 같이 사용하는 함수open 함수를 이용해 파일을..

데이터 2025.09.19

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 01-4

Chapter 01. 데이터 분석가에게 꼭 필요한 기초 문법 함수함수란 무엇인가?함수는 재사용 가능한 코드 블록으로, 특정 작업을 수행하기 위해 설계된 코드 모음함수정의 : 특정 작업을 미리 정의함함수 활용(호출) : 정의된 작업을 (여러차례) 수행함코드 재사용 : 반복적으로 사용되는 코드를 함수로 작성하여 중복 방지가독성 : 코드를 함수 단위로 나누어 읽기 쉽고 유지보수 용이모듈화 : 프로그램을 작은 단위로 나누어 관리디버깅 용이성 : 특정 작업을 함수로 분리하면 문제를 더 쉽게 찾고 해결 가능함수 기초 구조함수는 def 키워드로 정의되며, 매개변수, 실행문, 반환값으로 구성 됨. 함수 구조def 함수명(매개변수1, 매개변수2, ...):실행문 # 반환값 생성 프로세스return 반환값 # 선택 사항 ..

데이터 2025.09.18

제로베이스 데이터사이언스 스쿨 - Part 01. 데이터 분석을 위한 Python_Chapter 01-3

Chapter 01. 데이터 분석가에게 꼭 필요한 기초 문법 조건문조건문이란?조건문은 특정 조건을 만족할 때만 특정 코드 블록을 실행하도록 하는 제어문어떤 조건을 만족 할 때만 특정 작업을 실행할 수 있게사용자 입력에 따라 다른 결과를 낼 수 있게 (예 : 비밀번호)특정한 예외적인 상황을 처리하기 위해로직을 분기해서 다양한 결과를 처리하기 위해 (예: 사용금액 기준 멤버십 등급)반복문과 결합하여 필터링 (리스트 내 특정한 조건을 만족하는 값 필터링)if - else문if 온도 >= 30: print("에어컨을 틀어라")else: print("에어컨을 꺼라")if - elif - else문if 온도 > 30: print("에어컨을 틀어라")elif 온도 == 30: print("에어컨을 건드리지마라")el..

데이터 2025.09.17
반응형