반응형
parquet은 Python에서 대용량 데이터 처리와 저장에 효율적인 파일 포맷입니다. 특히 Pandas나 PyArrow를 사용할 때 자주 쓰이며, CSV보다 빠르고 용량도 작다는 장점이 있습니다.
다음은 Python에서 parquet 파일을 읽고 쓰는 방법입니다:
1. 필요한 라이브러리 설치
pip install pandas pyarrow
또는 fastparquet을 사용할 수도 있습니다:
pip install fastparquet
2. Parquet 파일 저장
import pandas as pd
# 예제 데이터프레임 생성
df = pd.DataFrame({
'name': ['홍길동', '김철수'],
'age': [30, 25]
})
# Parquet 파일로 저장 (pyarrow 사용)
df.to_parquet('data.parquet', engine='pyarrow', index=False)
3. Parquet 파일 불러오기
# Parquet 파일 불러오기
df_loaded = pd.read_parquet('data.parquet', engine='pyarrow')
print(df_loaded)
4. 주의사항
- engine은 보통 'pyarrow' 또는 'fastparquet' 중 하나를 사용합니다.
- Parquet은 스키마를 유지하면서 데이터를 저장하기 때문에, 구조화된 데이터를 다룰 때 적합합니다.
- 대용량 데이터를 빠르게 로드하거나 저장할 때 특히 유용합니다.
필요하시면 PyArrow를 직접 사용해 다루는 방법이나, Parquet을 여러 파일로 분할 저장하거나 필터링하여 읽는 고급 기능도 설명드릴 수 있습니다. 원하시는 방향이 있다면 말씀해 주세요.
반응형
'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글
[Python] Dask란? :: Pandas보다 빠르고 큰 데이터도 처리 가능한 라이브러리 (0) | 2025.04.01 |
---|---|
[Python] 파이썬 디버깅하기 (0) | 2025.04.01 |
파이썬에서 모든 열 출력하기 :: display.max_columns (0) | 2025.03.31 |
[Python] SHP 파일 여러개를 하나로 합치는 방법 :: geopandas 활용 (0) | 2025.03.27 |
[Python] PyQGIS란? :: QGIS를 자동화하는 파이썬 도구 (0) | 2025.03.27 |
댓글