반응형
- 층별화 : 범주형 데이터의 항목의 특성에 따라, 다른 데이터의 통계적 특성이 달라짐
- 데이터 필터 (Filter) : 특정 조건에 따라 데이터를 나눠 확인, 처리
첫 번째 사례
* 월 렌탈비용이 10만원 이상인 계약 명단을 확인
cond1 = (df1 ['Amount_Month'] >= 100000)
df1. loc [cond1] # loc (location): Series에서 True 값으로 잡힌 index에 해당하는 데이터를 추출
df1[cond1] 로도 똑같이 나오지만, loc를 이용하면 파생변수를 만들 수 있음.
ex. 10만 이상이면 A, 미만이면 B로 분류하는 모델 -> loc 있어야 만들 수 있음
* 월 렌탈비용은 10만원 이상이고 연체건수는 2건 미만인 계약 명단을 추출
cond1 = (df1['Amount_Month'] >= 100000)
cond2 = (df1['Overdue_count'] < 2) # 괄호는 안 써도 되지만, 연산 순서 때문에 ()를 씀
df1.loc [cond1 & cond2] # 위 두 조건을 모두 만족하는 데이터를 추출
cond1, cond2로 저장
* 판매 유형 Sales_Type이 '렌탈'에 해당하는 데이터만 추출. (특정 항목값만 추출)
cond1 = df1 [ 'Sales_Type'] == '렌탈'
df1.loc[cond1]
반응형
'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글
[Python] 파이썬에서 데이터프레임으로 바꾸기 :: pd.DataFrame (0) | 2024.01.23 |
---|---|
[Python] 파이썬에서 데이터프레임 정렬하기 :: .sort_values(by = , ascending = ) (0) | 2024.01.23 |
[Python] 파이썬 결측치 다루기 :: drop / isnull (0) | 2024.01.23 |
[Python] 내가 직접 만든 함수를 특정 데이터에 적용시키기 :: apply() (0) | 2024.01.23 |
[Python] 파생변수 만들기 (0) | 2024.01.23 |
댓글