데이터 분석/Python
pandas
데이터분석가 이채은
2025. 1. 30. 21:16
pandas란?
pandas는 Python에서 데이터를 다루기 위한 라이브러리입니다.
엑셀, CSV, SQL 데이터 등을 쉽게 불러오고, 처리하고, 분석할 수 있도록 도와주는 도구로, 주로 데이터 분석과 머신러닝 전처리에 많이 사용됩니다.
pandas의 핵심 개념
pandas는 두 가지 주요 데이터 구조를 제공합니다:
- Series → 1차원 데이터(리스트 같은 형태)
- DataFrame → 2차원 테이블 형태(엑셀 같은 형태)
1. Series (1차원 데이터)
import pandas as pd
# 리스트를 Series로 변환
s = pd.Series([10, 20, 30, 40, 50])
print(s)
출력 결과
0 10
1 20
2 30
3 40
4 50
dtype: int64
- 인덱스(0,1,2,...)와 값(10,20,...)으로 구성됨
- 리스트랑 비슷하지만, 데이터 연산이 더 편리함
2. DataFrame (2차원 데이터)
import pandas as pd
# 딕셔너리를 DataFrame으로 변환
data = {"이름": ["Alice", "Bob", "Charlie"],
"나이": [25, 30, 35],
"도시": ["Seoul", "Busan", "Incheon"]}
df = pd.DataFrame(data)
print(df)
출력 결과
이름 나이 도시
0 Alice 25 Seoul
1 Bob 30 Busan
2 Charlie 35 Incheon
- 행(Row)과 열(Column)로 구성된 엑셀 같은 데이터 구조
- 데이터 필터링, 정렬, 그룹화 등 강력한 기능 제공
pandas를 쓰는 이유
- 대용량 데이터 처리 가능 (엑셀보다 빠름)
- SQL처럼 데이터 필터링, 정렬, 그룹화 가능
- 머신러닝 전처리에 필수적
- Tableau 같은 시각화 툴과 연계 가능
마무리
- pandas는 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리
- Series(1차원) / DataFrame(2차원) 두 가지 핵심 구조 제공
- 데이터 로드, 필터링, 정렬, 그룹화, 결측치 처리 등 강력한 기능 제공
- CSV, Excel, SQL과 연동 가능 → 실제 데이터 분석에 필수적