๋ฐ์ดํฐ: https://www.kaggle.com/datasets/subhajournal/adware-detection
1. ๊ณต๋ฐฑ ์ ๊ฑฐ / ์๋ฏธ์๋ ์ด ์ ๊ฑฐ

์ปฌ๋ผ ์ด๋ฆ์ ๊ณต๋ฐฑ์ ์ ๊ฑฐํด ํํ๋ฅผ ํต์ผํ๊ณ , 'Unnamed:_0'์ด์ ์ ๊ฑฐํ๋ค.
2. ๋ฐ์ดํฐ ๊ตฌ์ฑ ๋ถ์ / ๋ฐ์ดํฐ์ ๊ด๋ จ ์ ๋ณด ์์ง

์ ๋์จ์ด ๋ฐ์ดํฐ์ ์ ์ ๋ฐ์ดํฐ ๊ฐ ๋ถ๊ท ํ์ด ์์ง๋ง,
์ค์ ์ ๋ฐ์ดํฐ์์ BENIGN ํด๋์ค๊ฐ ํจ์ฌ ๋ง๊ธฐ์, ์ด๋ฅผ ์ด๋์ ๋ ๋ฐ์ํ๋ ๊ฒ์ด ํ์ค์ ์ธ ์์ธก์ด ๋๋ค.
3. objectํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ
(Flow_ID ๋๋กญ, Source_IP์ Destination _IP ๋ณํ, Timestamp ์คํผ์ด๋ง ์๊ด๊ณ์)


์ํ ๋ฐ์ดํฐ์์ Flow_ID ์ด์ด ์ ๊ฑฐ๋ ๊ฒ์ ํ์ธ ๊ฐ๋ฅํ๋ค.

URL์ด๋ IP ์ฃผ์ ๋ฑ ๊ณ ์ ๊ฐ ์๊ฐ ๋ง๊ณ ์์น์ ์๋ฏธ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ์ํซํด์ฑ์ด ์ฌ์ฉ๋๋๋ฐ,
์ฌ์ด๋ฒ ๋ณด์ ํ์ง๋ ํด๋ฆญ์คํธ๋ฆผ ๋ถ์ ๋ฑ ๊ณ ์ IP ์ฃผ์๊ฐ ๋งค์ฐ ๋ง๊ณ , ํจํด ์๋ณ์ด ์ค์ํ ๊ฒฝ์ฐ์ ์ ํฉํ๋ค.
๋ณธ ํ๋ก์ ํธ์ ๋ฐ์ดํฐ์
์์๋ ํน์ IP ์ฃผ์์ ๋ถ๋ฅ๊ฐ ์ค์ํ๋ค๊ณ ์๊ฐํ๋ฉด ์ํซํด์ฑ์,
IP ๋ฒ์์ ํ์ง๊ฐ ์ค์ํ๋ค๊ณ ์๊ฐํ๋ฉด ์ ์ ๋ณํ์ ์ฌ์ฉํ๋ฉด ๋๋ค.
ํน์ ๋คํธ์ํฌ๋ IP ๋ฒ์๊ฐ ํน์ ํจํด์ ๋ณด์ผ ๊ฒฝ์ฐ(ํน์ IP ๋ฒ์์์ ํ๋)๊ฐ ์์ ์๋ ์๊ณ ,
IP๊ฐ ํน์ ๋ฒ์์์ ์ผ๊ด๋๊ฒ ์คํ๋ ๊ธฐ๋ง ํ๋ ๊ฒ์ ์๋๊ธฐ์ ํ ๊ฐ์ง ๋ฐฉ์์ด ๋ฌด์กฐ๊ฑด ์ข๋ค๊ณ ํด์ํ ์ ์๋ค.
๊ธฐ์กด ์ฝ๋์์๋ ๋ณดํธ์ ์ธ ๋ฐฉ์์ ๊ณ ๋ คํ์ฌ ์ํซํด์ฑ์ ์ฑํํ์ผ๋,
๋ ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ ํ
์คํธ ํด๋ณธ ๊ฒฐ๊ณผ, ์ด ๋ฐ์ดํฐ์
์์๋ ํธ๋ฆฌ ๋ชจ๋ธ, ๊ธฐ๋ณธ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์์์ ๊ฒฐ๊ณผ์ ์ค์ ๋ก ํฐ ์ฐจ์ด๊ฐ ์์๊ธฐ์
๋ชจ๋ธ์ด ์๋์ ์ผ๋ก ๋น ๋ฅด๊ฒ ์คํ๋ ์ ์๋ ์ ์ ๋ณํ ๋ฐฉ์์ ์ฌ์ฉํ์๋ค.


Timestamp์ ์คํผ์ด๋ง ์๊ด ๊ณ์๋ฅผ ๊ณ์ฐํ๋ฉด 0.81์ ๋์ ์๊ด ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค.
๋ฐ๋ผ์ ๋ณํ ์์ด ๊ทธ๋๋ก ์ ์ ๋ณํํ๋ค.
4. ํน์ฑ ์ค์๋ ์ถ๋ ฅ(๋๋ค ํฌ๋ ์คํธ ๋ชจ๋ธ ์ด์ฉ)


5. ์๊ด๊ณ์๊ฐ 0.9 ์ด์์ธ ์ค๋ณต๋ ์ด ์ ๊ฑฐ

df_dropped์์ ํผ์ด์จ ์๊ด ๊ณ์๊ฐ 0.9์ธ ์ด๋ค์ ์ ๊ฑฐํ df_reduced ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ํ์ฉํ์๋ค.
ํน์ฑ์ด ์ค๋ณต๋์ด ๋ฐ์ํ๋ ๋ค์ค๊ณต์ ์ฑ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด์์ด๋ค.
'๐ ํ๋ก๊ทธ๋๋ฐยท๊ฐ๋ฐ > ๐ธ๋จธ์ ๋ฌ๋' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| kaggle adware-detection - 3. ๋ฅ๋ฌ๋ (0) | 2025.10.05 |
|---|---|
| kaggle adware-detection - 2. ๋จธ์ ๋ฌ๋ ์ฑ๋ฅ ๋น๊ต (0) | 2025.10.05 |
| [Tensorflow] ๋ฐ์ดํฐ๋ฅผ ์ํ ํ (0) | 2024.05.16 |
| [Tensorflow] Tensorflow 101(13-19) (0) | 2024.05.16 |
| [Tensorflow] Tensorflow 101(1-12) (0) | 2024.05.15 |