Pandas는 Python 기반 데이터 분석·조작 라이브러리다. DataFrame과 Series 자료구조로 엑셀과 같은 방식으로 데이터를 처리하며, 데이터 과학의 핵심 도구다.
기본 사용
python
import pandas as pd
# DataFrame 생성
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Carol'],
'age': [30, 25, 35],
'score': [90.5, 85.0, 92.3]
})
# 기본 탐색
df.head() # 상위 5행
df.describe() # 통계 요약 (평균, 표준편차 등)
df.info() # 데이터 타입, 결측값 정보
df.shape # (3, 3) — 행, 열 수
데이터 조작
python
# 필터링
adults = df[df['age'] >= 30]
high_score = df[(df['score'] > 90) & (df['age'] < 35)]
# 새 컬럼 추가
df['grade'] = df['score'].apply(lambda x: 'A' if x >= 90 else 'B')
# 그룹화
avg_by_grade = df.groupby('grade')['score'].mean()
# 결측값 처리
df.dropna() # 결측행 제거
df.fillna({'score': df['score'].mean()}) # 평균으로 채우기
# 정렬
df.sort_values('score', ascending=False)
# merge (SQL JOIN과 유사)
merged = pd.merge(df1, df2, on='id', how='left')
관련 개념
- •Python — Pandas의 기반 언어
- •SQL — Pandas의 groupby/merge가 SQL과 유사
- •Jupyter — Pandas의 주요 실행 환경
참고문헌
- •Pandas 공식 문서: pandas.pydata.org
- •McKinney, W. Python for Data Analysis, 3rd Ed.