산포도
- 두 포인트를 사용하여 두 피처 간의 관계를 찾는 데 사용(상관관계 확인)
- 산포도– 인과관계는 상관관계가 아닙니다!
- 데카르트 좌표계에서 고유값을 x축/y축으로 매핑
- . 분산() 사용
- ‘/’는 양의 상관 관계이고 ‘\’는 음의 상관 관계입니다.
그렇지 않으면 상관 관계가 없습니다. - 추세선을 사용하면 산점도를 외삽할 수 있습니다(하나만 사용하는 것이 좋습니다).
- 분류와 관련된 관계에서 히트 맵 또는 버블 맵추천하다
산점도의 요소
- 색상: 그래디언트처럼 연속적, 개별 색상처럼 이산적
- 모양(마크): 거의 차이가 없으며 어느 것이 더 큰지 구분할 수 없음
- 크기: 크기가 다양한 차트를 거품형 차트라고 합니다.
구별하기 쉽지만 오용하기 쉽습니다.
오버드로 – 점이 많을수록 분포를 결정하기가 더 어렵습니다.
- 투명도 조정
- 지터: 점의 위치를 약간 변경하여 겹치지 않게 함(좋지 않음)
- 2D 히스토그램: 히트맵을 사용한 명확한 시각화
- 등고선도: 등고선으로 표시
산점도 코드
산점도의 요소
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111, aspect=1)
np.random.seed(970725)
x = np.random.rand(20)
y = np.random.rand(20)
s = np.arange(20) * 10 # =200
ax.scatter(x, y,
s= s, # size=200
c="grey", # 점의 색
marker="o", #마커
linewidth=1,
edgecolor="black") #테두리 색
plt.show()
시각적 관심을 위한 마커 라인
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(111)
ax.axvline(2.5, color="gray", linestyle=":")
ax.axhline(0.8, color="gray", linestyle=":")
ax.legend()
plt.show()