데이터분석가 이채은 2025. 1. 30. 21:16

pandas란?

pandas는 Python에서 데이터를 다루기 위한 라이브러리입니다.
엑셀, CSV, SQL 데이터 등을 쉽게 불러오고, 처리하고, 분석할 수 있도록 도와주는 도구로, 주로 데이터 분석과 머신러닝 전처리에 많이 사용됩니다.


pandas의 핵심 개념

pandas는 두 가지 주요 데이터 구조를 제공합니다:

  1. Series1차원 데이터(리스트 같은 형태)
  2. DataFrame2차원 테이블 형태(엑셀 같은 형태)

1. Series (1차원 데이터)

import pandas as pd

# 리스트를 Series로 변환
s = pd.Series([10, 20, 30, 40, 50])
print(s)

출력 결과

0    10
1    20
2    30
3    40
4    50
dtype: int64
  • 인덱스(0,1,2,...)와 값(10,20,...)으로 구성됨
  • 리스트랑 비슷하지만, 데이터 연산이 더 편리

2. DataFrame (2차원 데이터)

import pandas as pd

# 딕셔너리를 DataFrame으로 변환
data = {"이름": ["Alice", "Bob", "Charlie"],
        "나이": [25, 30, 35],
        "도시": ["Seoul", "Busan", "Incheon"]}

df = pd.DataFrame(data)
print(df)

출력 결과

       이름  나이     도시
0   Alice  25  Seoul
1     Bob  30  Busan
2  Charlie  35  Incheon
  • 행(Row)과 열(Column)로 구성된 엑셀 같은 데이터 구조
  • 데이터 필터링, 정렬, 그룹화 등 강력한 기능 제공

pandas를 쓰는 이유

  • 대용량 데이터 처리 가능 (엑셀보다 빠름)
  • SQL처럼 데이터 필터링, 정렬, 그룹화 가능
  • 머신러닝 전처리에 필수적
  • Tableau 같은 시각화 툴과 연계 가능

마무리

 

  • pandas는 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리
  • Series(1차원) / DataFrame(2차원) 두 가지 핵심 구조 제공
  • 데이터 로드, 필터링, 정렬, 그룹화, 결측치 처리 등 강력한 기능 제공
  • CSV, Excel, SQL과 연동 가능 → 실제 데이터 분석에 필수적