🖥️ IT, 컴퓨터/🐍 Python

[Python] parquet 파일포맷이란?

김 홍시 2025. 3. 31.

목차

parquet은 Python에서 대용량 데이터 처리와 저장에 효율적인 파일 포맷입니다. 특히 Pandas나 PyArrow를 사용할 때 자주 쓰이며, CSV보다 빠르고 용량도 작다는 장점이 있습니다.

다음은 Python에서 parquet 파일을 읽고 쓰는 방법입니다:

1. 필요한 라이브러리 설치

pip install pandas pyarrow

또는 fastparquet을 사용할 수도 있습니다:

pip install fastparquet

2. Parquet 파일 저장

import pandas as pd

# 예제 데이터프레임 생성
df = pd.DataFrame({
    'name': ['홍길동', '김철수'],
    'age': [30, 25]
})

# Parquet 파일로 저장 (pyarrow 사용)
df.to_parquet('data.parquet', engine='pyarrow', index=False)

3. Parquet 파일 불러오기

# Parquet 파일 불러오기
df_loaded = pd.read_parquet('data.parquet', engine='pyarrow')
print(df_loaded)

4. 주의사항

engine은 보통 'pyarrow' 또는 'fastparquet' 중 하나를 사용합니다.
Parquet은 스키마를 유지하면서 데이터를 저장하기 때문에, 구조화된 데이터를 다룰 때 적합합니다.
대용량 데이터를 빠르게 로드하거나 저장할 때 특히 유용합니다.

필요하시면 PyArrow를 직접 사용해 다루는 방법이나, Parquet을 여러 파일로 분할 저장하거나 필터링하여 읽는 고급 기능도 설명드릴 수 있습니다. 원하시는 방향이 있다면 말씀해 주세요.

도움이
되셨다면
공감 꾹 ~ !
부탁드려요 💖

저작자표시 비영리 동일조건 (새창열림)

'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글

[Python] Dask란? :: Pandas보다 빠르고 큰 데이터도 처리 가능한 라이브러리 (0)	2025.04.01
[Python] 파이썬 디버깅하기 (0)	2025.04.01
파이썬에서 모든 열 출력하기 :: display.max_columns (0)	2025.03.31
[Python] SHP 파일 여러개를 하나로 합치는 방법 :: geopandas 활용 (0)	2025.03.27
[Python] PyQGIS란? :: QGIS를 자동화하는 파이썬 도구 (0)	2025.03.27

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[Python] parquet 파일포맷이란?

1. 필요한 라이브러리 설치

2. Parquet 파일 저장

3. Parquet 파일 불러오기

4. 주의사항

'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역