Pandas - 인공지능 > 머신러닝 | AI Insight Note

Pandas는 Python 기반 데이터 분석·조작 라이브러리다. DataFrame과 Series 자료구조로 엑셀과 같은 방식으로 데이터를 처리하며, 데이터 과학의 핵심 도구다.

기본 사용

python

import pandas as pd

# DataFrame 생성
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Carol'],
    'age': [30, 25, 35],
    'score': [90.5, 85.0, 92.3]
})

# 기본 탐색
df.head()           # 상위 5행
df.describe()       # 통계 요약 (평균, 표준편차 등)
df.info()           # 데이터 타입, 결측값 정보
df.shape            # (3, 3) — 행, 열 수

데이터 조작

python

# 필터링
adults = df[df['age'] >= 30]
high_score = df[(df['score'] > 90) & (df['age'] < 35)]

# 새 컬럼 추가
df['grade'] = df['score'].apply(lambda x: 'A' if x >= 90 else 'B')

# 그룹화
avg_by_grade = df.groupby('grade')['score'].mean()

# 결측값 처리
df.dropna()                      # 결측행 제거
df.fillna({'score': df['score'].mean()})  # 평균으로 채우기

# 정렬
df.sort_values('score', ascending=False)

# merge (SQL JOIN과 유사)
merged = pd.merge(df1, df2, on='id', how='left')

참고문헌

•Pandas 공식 문서: pandas.pydata.org
•McKinney, W. Python for Data Analysis, 3rd Ed.

PandasPandas

기본 사용

데이터 조작

관련 개념

참고문헌

관련 노트

L2 정규화L2 Regularization

하이퍼파라미터 튜닝Hyperparameter Tuning

배치 크기Batch Size