학습 목표
- 기초 통계로 데이터의 분포를 살펴보고, 시각화해봅니다.
핵심 키워드
- unique() / nunique()
- value_counts()
- barh()/pie chart()
학습하기
학습 목표
- 기초 통계로 데이터의 분포를 살펴보고, 시각화해봅니다.
핵심 키워드
- unique() / nunique()
- value_counts()
- barh()/pie chart()
학습하기
학습내용
중복제거한 값 보기
df.describe(include="object")로 문자열 데이터를 요약하여 보면 unique라는 수치가 나옵니다. unique는 값의 종류가 몇 개인지를 보여줍니다.
1) 상권업종대분류명
df["상권업종대분류명"].unique()
결과 :
df["상권업종대분류명"].nunique()
결과 :
상권업종대분류명은 1개의 값을 가지고 있고, 그 값은 "의료"입니다.
2) 상권업종중분류명
df["상권업종중분류명"].unique()
결과 :
df["상권업종중분류명"].nunique()
결과 :
상권업종중분류명은 5개의 값을 가지고 있고, 그 값은 각각 병원, 약국/한약방, 수의업, 유사의료업, 의료관련서비스업입니다.
3) 상권업종소분류명
df["상권업종소분류명"].unique()
결과 :
df["상권업종소분류명"].nunique()
결과 :
상권업종소분류명은 34개의 값을 가지고 있습니다.
len(df["상권업종소분류명"].unique())
결과 :
len()을 사용하면 nunique()와 같은 값이 나옵니다.
그룹화된 요약값 보기
df["시도명"].value_counts()
value_counts로는 각 value가 몇 개인지를 세어줍니다.
결과 :
df["시도명"].value_counts(normalize=True)
normalize 옵션을 넣으면 전체에서 차지하는 비율을 계산해줍니다.
결과 :
city_normalize = df["시도명"].value_counts(normalize=True)
위 소스를 city_normalize라는 변수에 담아봅니다.
city_normalize.plot.barh()
결과 :
파이 차트도 그려보겠습니다. figsize로 사이즈도 조절해줍니다.
city_normalize.plot.pie(figsize=(7, 7))
결과 :
서울시, 경기도의 차이를 확인하기 어렵고 다른 지역들도 마찬가지이므로 막대그래프가 더 보기 편하겠죠?
seaborn에서는 pie chart의 모호함 때문에 앞으로도 pie chart를 만들 계획이 없다고 합니다.
comment
matplotlib로 그래프를 그리면 글씨들이 희미하게 나오는데, 혹시 해결 방법 아시는 분 계신가요? (alpha=1로 해도 그래도 입니다ㅜ)
1. 마지막 파이차트에서 숫자를 입력하는 방법 좀 설명 부탁드립니다.
2. 파이차트에서 순서대로(크기 순으로) 그림을 표현 할 수는 없을까요?
너무 재밌게 보고있습니다 감사해요
그래프에서 한글이 안나오는 경우 아래와 같이 해결가능합니다.
import matplotlib
matplotlib.font_manager._rebuild()
https://studioplug.tistory.com/333?category=894762
수업 잘 들었습니다. 감사합니다.
선생님 이렇게 만 나오고 그림이 안나오는 이유는 뭘까요?