산포도

산포도


  • 두 포인트를 사용하여 두 피처 간의 관계를 찾는 데 사용(상관관계 확인)
  • 산포도– 인과관계는 상관관계가 아닙니다!
  • 데카르트 좌표계에서 고유값을 x축/y축으로 매핑
  • . 분산() 사용
  • ‘/’는 양의 상관 관계이고 ‘\’는 음의 상관 관계입니다.

    그렇지 않으면 상관 관계가 없습니다.

  • 추세선을 사용하면 산점도를 외삽할 수 있습니다(하나만 사용하는 것이 좋습니다).
  • 분류와 관련된 관계에서 히트 맵 또는 버블 맵추천하다


산점도의 요소

  • 색상: 그래디언트처럼 연속적, 개별 색상처럼 이산적
  • 모양(마크): 거의 차이가 없으며 어느 것이 더 큰지 구분할 수 없음
  • 크기: 크기가 다양한 차트를 거품형 차트라고 합니다.

    구별하기 쉽지만 오용하기 쉽습니다.

오버드로 – 점이 많을수록 분포를 결정하기가 더 어렵습니다.

  • 투명도 조정
  • 지터: 점의 위치를 ​​약간 변경하여 겹치지 않게 함(좋지 않음)
  • 2D 히스토그램: 히트맵을 사용한 명확한 시각화
  • 등고선도: 등고선으로 표시

산점도 코드


산점도의 요소

fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111, aspect=1)

np.random.seed(970725)

x = np.random.rand(20)
y = np.random.rand(20)
s = np.arange(20) * 10 # =200

ax.scatter(x, y, 
           s= s, # size=200
           c="grey", # 점의 색
           marker="o", #마커
           linewidth=1,
           edgecolor="black") #테두리 색

plt.show()


시각적 관심을 위한 마커 라인

fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)

ax.axvline(2.5, color="gray", linestyle=":")    
ax.axhline(0.8, color="gray", linestyle=":")    
ax.legend()    
plt.show()