Tags
- Article & User
- Vue
- ORM
- outer join
- DB
- SQL
- 통계학
- N:1
- M:N
- regexp
- delete
- 뷰
- stack
- 스택
- Tree
- update
- 완전검색
- migrations
- 이진트리
- Queue
- Django
- 그리디
- create
- 백트래킹
- distinct
- drf
- 트리
- count
- 쟝고
- 큐
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Notice
Recent Posts
Link
데이터 분석 기술 블로그
pandas 본문
pandas란?
pandas는 Python에서 데이터를 다루기 위한 라이브러리입니다.
엑셀, CSV, SQL 데이터 등을 쉽게 불러오고, 처리하고, 분석할 수 있도록 도와주는 도구로, 주로 데이터 분석과 머신러닝 전처리에 많이 사용됩니다.
pandas의 핵심 개념
pandas는 두 가지 주요 데이터 구조를 제공합니다:
- Series → 1차원 데이터(리스트 같은 형태)
- DataFrame → 2차원 테이블 형태(엑셀 같은 형태)
1. Series (1차원 데이터)
import pandas as pd
# 리스트를 Series로 변환
s = pd.Series([10, 20, 30, 40, 50])
print(s)
출력 결과
0 10
1 20
2 30
3 40
4 50
dtype: int64
- 인덱스(0,1,2,...)와 값(10,20,...)으로 구성됨
- 리스트랑 비슷하지만, 데이터 연산이 더 편리함
2. DataFrame (2차원 데이터)
import pandas as pd
# 딕셔너리를 DataFrame으로 변환
data = {"이름": ["Alice", "Bob", "Charlie"],
"나이": [25, 30, 35],
"도시": ["Seoul", "Busan", "Incheon"]}
df = pd.DataFrame(data)
print(df)
출력 결과
이름 나이 도시
0 Alice 25 Seoul
1 Bob 30 Busan
2 Charlie 35 Incheon
- 행(Row)과 열(Column)로 구성된 엑셀 같은 데이터 구조
- 데이터 필터링, 정렬, 그룹화 등 강력한 기능 제공
pandas를 쓰는 이유
- 대용량 데이터 처리 가능 (엑셀보다 빠름)
- SQL처럼 데이터 필터링, 정렬, 그룹화 가능
- 머신러닝 전처리에 필수적
- Tableau 같은 시각화 툴과 연계 가능
마무리
- pandas는 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리
- Series(1차원) / DataFrame(2차원) 두 가지 핵심 구조 제공
- 데이터 로드, 필터링, 정렬, 그룹화, 결측치 처리 등 강력한 기능 제공
- CSV, Excel, SQL과 연동 가능 → 실제 데이터 분석에 필수적
'데이터 분석 > Python' 카테고리의 다른 글
튜플 (Tuple) (0) | 2025.01.29 |
---|---|
리스트 (List) (0) | 2025.01.28 |
딕셔너리 (Dictionary) (0) | 2025.01.27 |
OS (Operating System) (0) | 2025.01.26 |