🏞️ GIS & RS/💽 공간 데이터 저장소

[공간자료] Kaggle 뉴욕 택시 데이터 :: New York City Taxi Trip Duration

김 홍시 2025. 4. 26.
반응형

 

 

 

New York City Taxi Trip Duration

Share code and data to improve ride time predictions

 

데이터셋 설명
이 대회 데이터셋은 Google Cloud Platform의 BigQuery에 공개된 2016년 뉴욕시 옐로캡(택시) 운행 기록 데이터를 기반으로 합니다. 원본 데이터는 뉴욕시 택시 및 리무진 위원회(TLC)가 공개한 것이며, 이번 대회를 위해 일부 샘플링 및 정제 과정을 거쳤습니다. 참가자는 주어진 개별 운행 특성 정보를 바탕으로 테스트 세트에 포함된 각 운행의 소요 시간을 예측해야 합니다.

파일 설명

  • train.csv – 학습 데이터 세트 (1458644건의 운행 기록 포함)
  • test.csv – 테스트 데이터 세트 (625134건의 운행 기록 포함)
  • sample_submission.csv – 제출 양식 예시 파일

데이터 필드 설명

  • id – 각 운행을 고유하게 식별하는 ID
  • vendor_id – 운행 기록과 연관된 택시 회사 제공자 코드
  • pickup_datetime – 탑승 시 미터기가 작동된 날짜 및 시간
  • dropoff_datetime – 하차 시 미터기가 꺼진 날짜 및 시간
  • passenger_count – 차량에 탑승한 승객 수 (운전자가 입력한 값)
  • pickup_longitude – 탑승 시 위치의 경도
  • pickup_latitude – 탑승 시 위치의 위도
  • dropoff_longitude – 하차 시 위치의 경도
  • dropoff_latitude – 하차 시 위치의 위도
  • store_and_fwd_flag – 차량이 서버에 연결되지 않았을 때 기록을 차량 메모리에 저장 후 전송했는지를 나타내는 플래그 (Y=저장 및 전송, N=실시간 전송)
  • trip_duration – 운행 소요 시간 (단위: 초)

주의사항
드롭오프(하차) 좌표를 삭제하지 않고 제공하기로 결정한 이유는, 참가자들이 더 다양한 변수를 활용해 분석할 수 있도록 하기 위함입니다.

 

 

 

 

 

 

 

 

 

https://www.kaggle.com/competitions/nyc-taxi-trip-duration/data

 

New York City Taxi Trip Duration

Share code and data to improve ride time predictions

www.kaggle.com

 

반응형

댓글