๐ ํ๋ก๊ทธ๋๋ฐ·๊ฐ๋ฐ/๐ธ๋จธ์ ๋ฌ๋
[Tensorflow] ๋ฐ์ดํฐ๋ฅผ ์ํ ํ
by Jenny:!
2024. 5. 16.
โ
๋ฐ์ดํฐ ํ์
์กฐ์
๋ณ์(์นผ๋ผ) ํ์
ํ์ธ
# ์นผ๋ผ์ ๋ฐ์ดํฐ ํ์
์ฒดํฌ
print(์์ด๋ฆฌ์ค.dtypes)
๋ณ์๋ฅผ ๋ฒ์ฃผํ์ผ๋ก ๋ณ๊ฒฝ
- ๋ฐ์ดํฐ['์นผ๋ผ๋ช
'].astype('category')
์์ด๋ฆฌ์ค['ํ์ข
'] = ์์ด๋ฆฌ์ค['ํ์ข
'].astype('category')
๋ณ์๋ฅผ ์์นํ์ผ๋ก ๋ณ๊ฒฝ
- ๋ฐ์ดํฐ['์นผ๋ผ๋ช
'].astype('int')
- ๋ฐ์ดํฐ['์นผ๋ผ๋ช
'].astype('float')
NA ๊ฐ์ ์ฒ๋ฆฌ
- NA ๊ฐ์ ํ์ธ : ๋ฐ์ดํฐ.isna().sum()
- NA ๊ฐ ์ฑ์ฐ๊ธฐ : ๋ฐ์ดํฐ['์นผ๋ผ๋ช
'].fillna(ํน์ ์ซ์)
โ
์ค์ต
์ค์ต ์ฝ๋
###########################
# ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฌ์ฉ
import pandas as pd
###########################
# ํ์ผ ์ฝ์ด์ค๊ธฐ
ํ์ผ๊ฒฝ๋ก = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
์์ด๋ฆฌ์ค = pd.read_csv(ํ์ผ๊ฒฝ๋ก)
์์ด๋ฆฌ์ค.head()
###########################
# ์นผ๋ผ์ ๋ฐ์ดํฐ ํ์
์ฒดํฌ
print(์์ด๋ฆฌ์ค.dtypes)
# ์ํซ์ธ์ฝ๋ฉ ๋์ง ์๋ ํ์ ํ์ธ
์ธ์ฝ๋ฉ = pd.get_dummies(์์ด๋ฆฌ์ค)
์ธ์ฝ๋ฉ.head()
###########################
# ํ์ข
ํ์
์ ๋ฒ์ฃผํ์ผ๋ก ๋ฐ๊พธ์ด ์ค๋ค
์์ด๋ฆฌ์ค['ํ์ข
'] = ์์ด๋ฆฌ์ค['ํ์ข
'].astype('category')
print(์์ด๋ฆฌ์ค.dtypes)
# ์นดํ
๊ณ ๋ฆฌ ํ์
์ ๋ณ์๋ง ์ํซ์ธ์ฝ๋ฉ
์ธ์ฝ๋ฉ = pd.get_dummies(์์ด๋ฆฌ์ค)
์ธ์ฝ๋ฉ.head()
###########################
# NA๊ฐ์ ํ์ธํ๋ค
์์ด๋ฆฌ์ค.isna().sum()
์์ด๋ฆฌ์ค.tail()
###########################
# NA๊ฐ์ ๊ฝ์ํญ ํ๊ท ๊ฐ์ ๋ฃ์ด์ฃผ๋ ๋ฐฉ๋ฒ
mean = ์์ด๋ฆฌ์ค['๊ฝ์ํญ'].mean()
print(mean)
์์ด๋ฆฌ์ค['๊ฝ์ํญ'] = ์์ด๋ฆฌ์ค['๊ฝ์ํญ'].fillna(mean)
์์ด๋ฆฌ์ค.tail()
๋ฒ์ฃผํ์ผ๋ก ๋ณ๊ฒฝ
- ํ์ข
์ด ์๋ฌธ๋ช
์์ 0 / 1 ํํ๋ก ๋ฐ๋์ด ์์นํ ๋ฐ์ดํฐ๋ก ์ธ์๋๋ค
- ์ํซ์ธ์ฝ๋ฉ์ ํด๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ์ธ์ํ์ง ๋ชปํ๋ค
- ์ฝ์ด๋ค์ธ ๋ฐ์ดํฐ ํ์
์ ํ์ธํ ์ ์๋ค
- category๋ object ํ์
๋ง ์ํซ์ธ์ฝ๋ฉ๋๋ค
- ํ์ข
ํ์
์ ๋ฒ์ฃผํ์ผ๋ก ์ง์ ๋ฐ๊พธ์ด ์ฃผ์ด์ผ ํ๋ค
- ํ์ข
ํ์
์ ๋ฒ์ฃผํ์ผ๋ก ๋ฐ๊พธ๊ณ , ๋ค์ ํ์ข
์ ๋ฃ์ด์ค๋ค
- ์นดํ
๊ณ ๋ฆฌ๋ก ๋ณํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค
- ์ด์ ์ํซ์ธ์ฝ๋ฉ์ด ์งํ๋๋ค
NA ๊ฐ์ ์ฒ๋ฆฌ
- ๊ฝ์ํญ์ NA๊ฐ ์๋ค
- ๋งจ ๋ง์ง๋ง์ด์ NA๊ฐ ์กด์ฌํ๋ค(์ค์ ๋ก ๋น ๊ฐ์ ๋ฃ์ด๋์๋ค)
- ๊ฝ์ํญ ํ๊ท ๊ฐ์ ๋ฃ์ด์ค ๊ฒ์ด๋ค
- ํ์ ์ญ์ ํ๊ฑฐ๋ ์๋ณธ ๋ฐ์ดํฐ์ ๊ฐ์ ๋ฃ์ด์ฃผ๋ ๋ฐฉ๋ฒ๋ ์๋ค
- ํ๊ท ๊ฐ์ผ๋ก NA๋ฅผ ์์ด๋ค