🖥️ IT, 컴퓨터/🐍 Python

[Python] parquet 파일포맷이란?

김 홍시 2025. 3. 31.
반응형

parquet은 Python에서 대용량 데이터 처리와 저장에 효율적인 파일 포맷입니다. 특히 PandasPyArrow를 사용할 때 자주 쓰이며, CSV보다 빠르고 용량도 작다는 장점이 있습니다.

다음은 Python에서 parquet 파일을 읽고 쓰는 방법입니다:


1. 필요한 라이브러리 설치

pip install pandas pyarrow

또는 fastparquet을 사용할 수도 있습니다:

pip install fastparquet

2. Parquet 파일 저장

import pandas as pd

# 예제 데이터프레임 생성
df = pd.DataFrame({
    'name': ['홍길동', '김철수'],
    'age': [30, 25]
})

# Parquet 파일로 저장 (pyarrow 사용)
df.to_parquet('data.parquet', engine='pyarrow', index=False)

3. Parquet 파일 불러오기

# Parquet 파일 불러오기
df_loaded = pd.read_parquet('data.parquet', engine='pyarrow')
print(df_loaded)

4. 주의사항

  • engine은 보통 'pyarrow' 또는 'fastparquet' 중 하나를 사용합니다.
  • Parquet은 스키마를 유지하면서 데이터를 저장하기 때문에, 구조화된 데이터를 다룰 때 적합합니다.
  • 대용량 데이터를 빠르게 로드하거나 저장할 때 특히 유용합니다.

필요하시면 PyArrow를 직접 사용해 다루는 방법이나, Parquet을 여러 파일로 분할 저장하거나 필터링하여 읽는 고급 기능도 설명드릴 수 있습니다. 원하시는 방향이 있다면 말씀해 주세요.

반응형

댓글