🖥️ IT, 컴퓨터/🐍 Python

[Python] Plotly로 히스토그램 그래프 그리기 :: px.histogram

김 홍시 2024. 2. 3.
반응형

px.histogram

px.histogram은 Plotly Express의 일부로, 데이터의 분포를 나타내는 히스토그램을 생성하는 데 사용됩니다. 히스토그램은 데이터의 분포를 시각화하는 그래프 유형으로, 데이터를 구간(bin)으로 나누고 각 구간에 속하는 데이터 포인트의 수를 막대로 표시합니다. 이를 통해 데이터의 분포, 중심 경향, 분산 등을 직관적으로 이해할 수 있습니다.

px.histogram 함수의 기본 사용법은 다음과 같습니다:

import plotly.express as px

# 데이터 로드
data = px.data.gapminder()

# 히스토그램 생성
fig = px.histogram(data, x="변수명")

# 그래프 표시
fig.show()

시각화 예시

px.data.gapminder() 함수는 갭마인더 데이터셋을 로드합니다. 이 데이터셋은 국가별 인구, 대륙, 기대 수명, GDP 등의 정보를 시간에 따라 기록한 것입니다.

예를 들어, gapminder 데이터셋에서 2007년의 국가별 기대 수명(lifeExp)의 분포를 히스토그램으로 나타내는 코드는 다음과 같습니다:

import plotly.express as px

# 갭마인더 데이터 로드
data = px.data.gapminder()

# 2007년 데이터 필터링
data_2007 = data[data.year == 2007]

# 기대 수명의 분포를 표시하는 히스토그램 생성
fig = px.histogram(data_2007, x="lifeExp")

# 그래프 표시
fig.show()

이 코드는 2007년 각 국가의 기대 수명 데이터를 사용하여 히스토그램을 생성하고 표시합니다. px.histogram 함수의 x 인자에는 분포를 나타낼 데이터 열의 이름을 지정합니다. fig.show() 명령을 통해 생성된 히스토그램을 볼 수 있습니다.

import plotly.express as px

# 갭마인더 데이터 로드
data = px.data.gapminder()

# 2007년 데이터 필터링
data_2007 = data[data.year == 2007]

# 기대 수명의 분포를 표시하는 히스토그램과 박스 플롯 생성
fig = px.histogram(data_2007, x="lifeExp", color = "continent", marginal="box")

# 그래프 표시
fig.show()

marginal 인자는 Plotly Express의 px.histogram 함수에서 히스토그램 또는 박스 플롯 옆이나 위에 추가로 정보를 표시하는 데 사용됩니다. 이를 통해 데이터의 분포를 더 자세히 이해할 수 있으며, 주요 히스토그램 외에도 데이터의 다른 측면을 시각화할 수 있습니다.

marginal 인자에 사용할 수 있는 값은 다음과 같습니다:

  • None: 추가 정보 없음 (기본값).
  • "rug": 데이터 포인트의 위치를 나타내는 작은 선(러그 플롯)을 추가합니다.
  • "box": 데이터의 분포를 나타내는 박스 플롯을 추가합니다.
  • "violin": 데이터의 밀도 추정을 나타내는 바이올린 플롯을 추가합니다.

예를 들어, gapminder 데이터셋의 2007년 국가별 기대 수명의 분포를 히스토그램으로 나타내면서, x축에 대한 박스 플롯을 함께 표시하는 코드는 다음과 같습니다:

import plotly.express as px

# 갭마인더 데이터 로드
data = px.data.gapminder()

# 2007년 데이터 필터링
data_2007 = data[data.year == 2007]

# 기대 수명의 분포를 표시하는 히스토그램과 박스 플롯 생성
fig = px.histogram(data_2007, x="lifeExp",color = "continent",  marginal="box")

# 그래프 표시
fig.show()

이 코드는 marginal="box" 인자를 사용하여, 기대 수명의 히스토그램 옆에 박스 플롯을 추가하여 생성합니다. 박스 플롯은 데이터의 중앙값, 사분위수, 이상치 등을 시각적으로 나타내어, 데이터의 분포를 더 잘 이해할 수 있도록 돕습니다.

반응형

댓글