์ ๋ฆฌ.
LETS(Local Exchange and Trading System)
- ์๋ก๋ฅผ ์ฐ๊ฒฐํ๋ ๋ฐฐ์๊ณผ ์ง์์ ํ์์ด ์์คํ
- ํฌ์คํธ ์์ ํตํ ์๋ก์ด ์์ด๋์ด ๊ณต์ ๋ฐฉ๋ฒ.
- ๋ด๊ฐ ์ค๋ ์์๊ฐ๊ณ ์ถ์ ๊ฒ
- ๋ด๊ฐ ์ค๋ ์๋ ค์ค ์ ์๋ ๊ฒ
- ๋ด๊ฐ ์ค๋ ๋ฐฐ์์ ๋๋ ๊ฒ
๋ด์ฉ.
-
ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ์ ์ด๋ ค์
-
ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ๋ PreProcessing๊ฐ 80% ์ด์
-
๋ฌธ์ ์ ์๋ฅผ ์ ํ๋ ๊ฒ์ด ๋ชจ๋ธ์ ๊ตฌํํ๋ ๊ฒ๋ณด๋ค ์ค์.
-
Preprocessing์ ์ค์์ฑ.
- Garbage in, Garbage Out
- ํํ์ ๋ถ์๊ธฐ๊ฐ ์ด๋ค Vocabulary๋ฅผ ์ฌ์ฉํ๋์ง?
-
๊ผญ Deep Learning์ผ๋ก ํ์ด์ผํ๋ ๋ฌธ์ ์ธ๊ฐ?
- ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐํ ์ ์์ผ๋ฉด ๊ทธ ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐํ์.
-
Domain Analysis
-
Feature Engineering
- ๋ฅ๋ฌ๋์ ๋ชจ๋ธ๋ณด๋ค Feature๊ฐ ๋ ์ค์.
- ๋ฌธ์ ํด๊ฒฐ์ ํ์ํ Feature๋ฅผ Selectionํ๋ ๊ฒ์ด ์ค์.
- Feature์ ๊ฐ์๋ฅผ ๊ณ ๋ฏผํ๊ธฐ. ์ฐจ์์๊ฐ ๋์์ง๋ฉด ์ ๋๋ก ํด๋ฌ์คํฐ๋ง์ด ์๋๋ค.
- Feature์ ๊ฐ์๋ฅผ ์ค์ด๋ฉด Overfitting ๋ฐฉ์งํ๋ค.
- ๋ชจ๋ ๋ฐ์ดํฐ ๋ค ๋๋ ค๋ฃ์ผ๋ฉด ์๋ ๊น์?
- ํ ์๋ ์๋๋ฐ Overfitting ๋ฌธ์ โ ์ ํ๋๋ ๋์ผ๋ ์์ธก์ ๋ฎ๋ค.
- ์ฐจ์์ด ๋๋ฌด ๋ง์์ ธ์ ๋ฐ์ดํฐ์ ๋ฐ๋๊ฐ ๋จ์ด์ง
- ์ด๋ค Feature ์๊ด๊ด๊ณ๊ฐ ๋์์ง๋ ์ฌํ ๋ถ์ํด๋ด์ผ ์๋ค.
- ์ฌ๋์ด ์ง์ ํน์ดํ ํจํด์ ์ฐพ๋๋ค.
- ์ฒ์๋ถํฐ ๋ฌด์จ Feature ์๊ด๊ด๊ณ๊ฐ ๋์์ง ๋ชจ๋ฅธ๋ค.
- ์ฉ๋์ ๋์ฑ ์ปค์ง ์ ๋ฐ์ ์์ โ Gigaโ Tera โ Peta
- Json๋ณด๋ค๋ ํน์ ํ Feature๋ฅผ ์ ๋ณํ์ฌ CSV, TSV๋ก ๋ณํ.
- ๋ชฉ์ ์ ๋ง๋๋ก ๋ฐ์ดํฐ ๊ตฌ์ฑ : Cohort Retention๋ฅผ ์ํ DataSet
- ๋ฐ์ดํฐ์ ์ค๋ณต์ด ์๋๋ก ์ต๋ํ ์ค์
- ์ต๋ํ ๋ฐ์ดํฐํฌ๊ธฐ๋ฅผ ์ค์ด๊ธฐ.
- Flatten Table Data
- Table Size ์์ถ
- ์ฝ๋๋ฐ์ดํฐ๋ ๋น์ฉ์ ๊ฐ์ ์ฃผ๋ ฅ
- ํธ๋ ์ด๋ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๋ฅผ ์ค์ฌ๋ณด๋ ๊ฒ๋ ๋ฐฉ๋ฒ (1๊ฐ์ โ 10์ผ โ 24์๊ฐ )
- ๋จธ์ ๋ฌ๋์ ๋ค์ด๊ฐ๋ ํผ์ณ๋ ์ต๋ํ ์ค์ด๊ณ ์ฐจ์์ ์ถ์ํด์ ํธ๋ ์ด๋ ๋น์ฉ์ ์ค์ด๊ธฐ.
-
์ด๋ป๊ฒ ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ ๊น?
- ์ด๋ค๊ฒ ๋ ์ค์ํ์ง ๋ชจ๋ฅด๋ ๋ชจ๋ ๊ฑธ ๋ค ๋ก๊ทธ๋ก ์๊ณ
- EDA๋ฅผ ์งํ๊ฒ ์งํํด์ ํน์ดํ ํจํด์ ์ฐพ๊ณ
- ํน์ดํ ํจํด์ ํตํด ๋ชจ๋ธ์ ํ์ต์ํค๊ณ
- ๋ฐ์ดํฐ๋ ํ ์คํธ ๊ธฐ๋ฐ Validation.
- ๊ณ์ํด์ ์๋ํ๊ณ ์คํจํ๋ค ๋ณด๋ฉด
- ์ํ์๋ ๋ชจ๋ธ์ด ๋์ฌ๊ฒ๋๋ค.
-
SVM์ ์ ์ ์ฉ์ ์ํ๋๊ฐ?
- ์ฒ์ ์ ์ฉํ์ง๋ง ์ ์ ์ ํ๋๊ฐ ๊ฐ์ํ๋ค.
- Feature๋ฅผ ์ ๋ณํด์ DeepLearning์ ์ ์ฉํ๋ค.
-
๋ชจ๋ธ์ด ๋ณ๊ฒฝ๋๋ค๋ฉด ์ด๋ป๊ฒ ํ ๊น์?
- ๊ท์ฝ์ ๋ฏธ๋ฆฌ ์ ํ๊ธฐ Code Level
- Validation์ ํด์ Warning์ด ๋์จ๋ค๋ฉด ์ปค๋ฎค๋์ผ์ด์ ํ๊ธฐ.
-
Preprocessing โ normalize โ 0~1์ฌ์ด๋ก ๋ฐ๊พธ๊ธฐ. log
๋๋ ๋ฌด์์ ์ป์๋๊ฐ?
์์ฐ์ด ์ฒ๋ฆฌ
- ์ธํด ๊ณผ์ ๋ก ๋ฐ์๋ ํ๊ตญ์ด ๋๊ธ ๋ถ์์์ ๋ด๊ฐ ๊ฒช์๋ ๋ฌธ์ ๋ค์ ์ด๋ ๊ฒ๋ ํ ์ ์๊ตฌ๋๋ผ๋ ๊ฑธ ์๊ฒ ๋์์ต๋๋ค.
- ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ๊ฐ ๋งค์ฐ ์ค์ํ๋ค๋ ์ .
- ๋ด๊ฐ ์ฌ์ฉํ๊ณ ์๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ด๋ป๊ฒ ์์ฐ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ณ ์๋์ง?
- ๋ด๊ฐ ์ด๋ ํ ํํ์ ํ๊ตญ์ด๋ฅผ ๋ถ์ํ๊ณ ์๋์ง?
๋ฌธ์ ์ ๋ํ ์ ์ ์ค์์ฑ.
- ์๊ตฌ์ฌํญ์ ๋ํ ์ ์๊ฐ ๋ช ํํ์ง ์์ผ๋ฉด ์ํ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ค์ง ์์ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
- ํ์ฌ๊ฐ ์ปค์ง๋ฉด ์ปค์ง์๋ก ๋ฌธ์ ์ ๋ํ ์ดํด์ ์๊ตฌ์ฌํญ์ ์ ์ํ๋๊ฒ ์ค์ํ๋ค.
- ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ ๊ฒ์ธ๊ฐ?
- ๋ญ ์ํ๋์ง? ์ด๋ค ๊ฒ์ ํด๊ฒฐํ๊ณ ์ถ์์ง?
- ์ด๋ฐ Case์๋ ์ด๋ป๊ฒ ํ ๊ฒ์ธ์ง?
- ์๊ตฌํ๋ ์ฌ๋์ด ์ํ๋ ๊ฒ์ ์ถฉ์กฑํ๋ ๊ฒ ๊ฐ์ฅ ์ค์ํ๋ค.
๋ฐ์ดํฐ ์ ์ ์ ์ค์์ฑ.
- ์์ฒญ๋๊ฒ ๋ง์ Feature๋ฅผ ์๋๋ก ์๋ฏธ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ฝ์๋ด๊ธฐ ์ํด์ ?
- Peta ํฌ๊ธฐ๋ณด๋ค ๋ ๋ง์ Data์ ์์ฒญ๋ Computing์ด ํ์ํ๋ค.
- ๊ตฌ๊ธ ์ ๋์ ๋ฐ์ดํฐ ํฌ๊ธฐ์ Computing์ด๋ฉด ๊ฐ๋ฅํ ์ง๋?
- ์ฐ๋ฆฌ๋ ๋๋ถ๋ถ ๊ทธ๋ฐ ๋ฐ์ดํฐ๊ฐ ์๋ค.
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์์ Feature๋ฅผ ์ ๋ณํ ์ ์์ด์ผํ๋ฉฐ.
- ๋ค์ํ Feature๋ฅผ ์คํํ๊ณ ์ ์ํ๋๊ฒ ์ค์ํ ๊ฒ ๊ฐ๋ค.
์์ผ๋ก ๋ฏธ๋?
- SQL์ ์์ ์๋ ๊ฐ๋ฐ์๋ง ์ฌ์ฉํ๋๋ผ๋ฉด ํ์ฌ๋ ๊ฐ๋ฐ์๋ฟ๋ง ์๋๋ผ ๋ง์ ์ฌ๋๋ค์ด ์ฌ์ฉํ๋ ๊ฒ์ฒ๋ผ
- ์์ผ๋ก ์ด๋ฐ Data๋ฅผ ์ฝ๊ฒ ์ฌ์ฉํ๋ Tool์ด ๋์ฌ ๊ฒ ๊ฐ๋ค.
- Data๋ฅผ ์ด๋ป๊ฒ ํด์ํ ๊ฒ์ธ๊ฐ? ์ด๋ป๊ฒ ์ ์ ํ ๊ฒ์ธ๊ฐ? ์ค์ํด์ง ๊ฒ ๊ฐ๋ค.
- ์๊ฐ๋ณด๋ค ์์ฒญ๋ Data์ ํฌ๊ธฐ.
- ๊ด๋ จ ๋ ผ๋ฌธ ๋ง์ด ์ฝ์ด๋ณด๊ธฐ.
์ธ์์ ๋๋จํ ์ฌ๋๋ค์ด ๋๋ฌด ๋ง๊ณ ์ธ์ ๋ ๋์ ๋ถ์กฑํจ์ ๋๋๋ค. ๊ฐ๋ฐ์๊ฐ ๊ณผ์ฐ ๊ฐ๋ฐ๋ง ํ๋ ์ฌ๋์ธ๊ฐ? ์ง๊ธ์ ๋ฌธ์ ํด๊ฒฐ์ ํ๊ธฐ ์ํด ์ํํธ์จ์ด๋ฅผ ์ฌ์ฉํ๋ ์ฌ๋์ผ๋ก ๋ณผ ์ ์์ ๊ฒ ๊ฐ๋ค.