2. ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ์๊ฒ ์๊ตฌ๋๋ ์ํ์จ์ด ์ญ๋
์ปค ๋ฎค๋์ผ์ด์
์ค ํ ๋ฆฌํ ๋ง
ํธ ๊ธฐ์ฌ
์ฐฝ ์์ ์ฌ๊ณ
> ์ปค์ค(์ปคํผ์์คํํน)์ ์ข์ํ๋ ์ด ํธ์ฐฝ
3. ์ฒ๋ : ๋ช ๋ชฉ, ์์, ๊ตฌ๊ฐ, ๋น์จ > ์ ๋์ ์์ , ํด๋น ์์ ์ฐพ์์ ์ ๋ฆฌ
4. ํ๋ณธ์ถ์ถ๋ฐฉ๋ฒ
5. ํผ์ด์จ / ์คํผ์ด๋ง ์ ๋ฆฌ
์คํผ์ด๋ง ์ด๋๊น ์์ ใ > ์์ด์ฒ๋
ํผ์ด์จ์ ๋๋จธ์ง
6. ํ๊ท๋ถ์์์ ์์ฐจ๋๋ฅผ ๋ณด๊ณ ์ด๋ค๊ฐ์ ์ ์๋ฐฐ๋์๋์ง ๊ณ ๋ฅด๊ธฐ
7. ~~๋ถ์ ๊ตฐ์ง๋ถ์, ๋ถ๋ฅ๋ถ์, ์ฅ๋ฐ๊ตฌ๋๋ถ์, ์์ฐจ๋ถ์
9. 2๊ณผ๋ชฉ์ค ๋น์ฆ๋์ค ๋ชจ๋ธ ์บ๋ฒ์ค ์ ๋ฆฌ(๊ทธ๋ฆผ)
๊ท์ ์ ๊ฐ์ฌ
์ ๋ฌด - ์ ํ - ๊ณ ๊ฐ๋จ์
์ง์ ์ธํ๋ผ
10. ๊ฐ์ธ์ ๋ณด์ ์ฃผ์ ์๋ณ์์๋ฅผ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒดํ์ฌ ๊ฐ์ธ์๋ณ์ ์ด๋ ต๊ฒ ๋ง๋๋๊ธฐ์
- ๊ฐ๋ช ์ฒ๋ฆฌ
*tip : ๋ฐ์ดํฐ ๋ง์คํน์ ๋ณด์ด์ง ์๋๋ก ๋ง๋๋๊ฒ
https://codedragon.tistory.com/7551
์ฐธ๊ณ ์๋ฃ
11. KDD - KRISP-DM ์ฐจ์ด
KDD | CRISP-DM |
๋ถ์๋์ ๋น์ฆ๋์ค ์ดํด | ์ ๋ฌด ์ดํด (๋ชฉ์ ์๊ตฌ์ฌํญ ์ดํด) |
๋ฐ์ดํฐ ์ ์ ํ | ๋ฐ์ดํฐ์ ์ดํด (๋ฐ์ดํฐ๋ฅผ ์์ง, ์์ฑ์ ์ดํด, ์ธ์ฌ์ดํธ ๋ฐ๊ฒฌ) |
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ | |
๋ฐ์ดํฐ ๋ณํ(๋ณ์์ฐพ๊ธฐ, ๋ฐ์ดํฐ์ฐจ์์ถ์) | ๋ฐ์ดํฐ ์ค๋น (๋ฐ์ดํฐ์ ์ ํ, ๋ฐ์ดํฐ์ ์ ) |
๋ฐ์ดํฐ ๋ง์ด๋ | ๋ชจ๋ธ๋ง (๋ชจ๋ธ๋ง๊ธฐ๋ฒ,์๊ณ ๋ฆฌ์ฆ์ ํ, ์ต์ ํ, ๋ชจ๋ธํ๊ฐ) |
๋ฐ์ดํฐ ๋ง์ด๋ ๊ฒฐ๊ณผ ํ๊ฐ | ํ๊ฐ (๋ถ์๊ฒฐ๊ณผํ๊ฐ, ๋ชจ๋ธ๋ง๊ณผ์ ํ๊ฐ, ๋ชจ๋ธ์ ์ฉ์ฑํ๊ฐ) |
๋ฐ์ดํฐ ๋ง์ด๋ ํ์ฉ | ์ ๊ฐ (์ค์ ๋ฌด์ ์ ์ฉ, ์ ์ง๋ณด์ ๊ณํ๋ง๋ จ) |
* CRISP-DM์ ํ๋ก์ธ์ค๋ ์ผ๋ฐฉํฅ(ํญํฌ์๋ชจ๋ธ)์ด ์๋ ๊ฐ ๋จ๊ณ๊ฐ ํผ๋๋ฐฑ์ ํตํ ์์ฑ๋๋ฅผ ๋ํ๋ ๊ตฌ์ฑ์ ๋์ด์๋ค.
12. ์ํฅ์ ์ ๊ทผ . ํํฅ์ ์ ๊ทผ
13. ๋ถ์๊ณผ์ ์ ์ฃผ์ ๊ด๋ฆฌ ์์ญ
- Data Size
- Data Complexity
- Speed
- Analystic & Complexity
- Accuracy & Precision
14. ๋ง์คํฐํ๋ ์๋ฆฝ ์์ ์์ ๋ถ์์ ์ง์์ ์ธ ์ ์ฉ๊ณผ ํ์ฐ์ ์ํ ๊ฑฐ๋ฒ๋์ค ์ฒด๊ณ์ ๊ตฌ์ฑ์์
15. ๋ถ์์์ค ์ง๋จ 4๋ถ๋ฉด ์๊ธฐ
16. ์ด์ฐํ. ์ฐ์ํ ํ๋ฅ ๋ถํฌ ์ ๋ฆฌ
์ด์ฐํ์ ์ด์ํ๋ค๊ณ ์๊ฐํ๊ณ ์ดํญ ๋ฒ ๋ฅด๋์ด ๊ธฐํ ํฌ์์ก ์๋ง๋ฐ์ ์ด๋ฒ ๊ธฐํฌ
์ด์ํ๊ฒ ์ ์๊ธฐํฌ๊ฐ ๋๋ค ์ด๋ฐ์...?? ์ผ๋ก ์ธ์ฐ๊ธฐ
17. R ๋ฐ์ดํฐ ์ค๋ธ์ ํธ ์ ๋ฆฌ
> ๋ฐฑํฐ : ์์๋ชจ๋ ๊ฐ์์ผํจ
> ๋ฆฌ์คํธ : ์์๋ค ๋ชจ๋ ๋ฌ๋ผ๋๋จ
> ๋ฐ์ดํฐํ๋ ์ : ํ๋ ฌ์ด ์๋ ๋ฆฌ์คํธ๋ก ํํ!
18.์ข ์๋ณ์๋ฅผ ์ค๋ช ํ๋๋ฐ ๊ฐ์ฅ ์ค์ํ ๋ ๋ฆฝ๋ณ์?
19. ์ค์ฌ๊ทนํ์ ๋ฆฌ ์ค๋ช
20. ๋ฐ์ดํฐ ์ฒ๋์ ๊ดํ ์ค๋ช
26. ๋ถํด์๊ณ์ด
27. ๋ค์คํ๊ท๋ถ์์์ ๋ชจํ์ ์ ํฉ์ํจํ ๋ชจํ์ด ์ ์ ํ์ง ํ์ธํ๊ธฐ ์ํด ์ฒดํฌํด์ผํ ์ฌํญ?
28.์ฃผ์ฑ๋ถ๋ถ์ ์์๋ณด๊ธฐ
29. ์ฐ๊ด๊ท์น์์ ํฅ์๋๊ฐ ํฌ๋ค?
> ํฅ์๋๊ฐํฌ๋ฉด ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋๋ฐ ์์ด ์ฐ์ํ๋ฉฐ ๋ ํ๋ชฉ๊ฐ์ ์ฐ๊ด์ฑ์ด ๋์์ง๋ค.
30. ๋ง์คํฐํ๋์๋ฆฝ์, ์ฐ์ ์์ ๊ณ ๋ ค์์
- ์ ๋ต์ ์ค์๋
- ๋น์ฆ๋์ค ์ฑ๊ณผ/ROI
- ์คํ์ฉ์ด์ฑ
> ๋น ์ค ์ ๋ต ์ผ๋ก ์ธ์ฐ๊ธฐ ! ๋ง์คํฐํ๋ ์๋ฆฝ์ ์ฐ์ ์์๋ ๋น์ค์ ๋ต์ด๋ค!!
31. ๋ฐ์ดํฐ ํ์คํ
- ๋ฐ์ดํฐ ํ์ค์ฉ์ด ์ค์
- ๋ช ๋ช ๊ท์น ์ค๋ฆฝ
- ๋ฉํ๋ฐ์ดํฐ ๊ตฌ์ถ
- ๋ฐ์ดํฐ ์ฌ์ ๊ตฌ์ถ
32. ์์คํ ๊ตฌํ๋จ๊ณ์์ ์ ๋ณด๋ณด์๊ณผ ์ฝ๋ฉ์ ๊ณ ๋ ค์ฌํญ์ด ์๋๋ค!
> ์์คํ ์ค๊ณ ๋ฐ ๊ตฌํ, ํ ์คํธ ๋ฐ ์ด์์ด ์ฃผ์ ๊ณ ๋ ค์ฌํญ์ด๋ค.
33. ํ๋ณธ์ถ์ถ๋ฐฉ๋ฒ ์ ๋ฆฌ
34. ๋ถ๋ฅ ๋ถ์
- ๋ก์ง์คํฑํ๊ท๋ถ์
- ์ธ๊ณต์ ๊ฒฝ๋ง๋ถ์
- ์์ฌ๊ฒฐ์ ๋๋ฌด ๋ถ์
- ์์๋ธ๊ธฐ๋ฒ
https://kimtell.tistory.com/374
10. ์ค๋ถ๋ฅํ ๊ณต๋ถํ๊ธฐ
1. ๋ฐ์ดํฐ๋ฅผ ์ ํ์ผ๋ก ๋ถ๋ฆฌํ ๋
- ์ ๋์ ๋ฐ์ดํฐ
- ์ ์ฑ์ ๋ฐ์ดํฐ
2. evaluation - ํ๊ฐ
3. ์๋์ฐ๊ฒฐ๋ฒ
๊ตฐ์ง๋ด ํธ์ฐจ๋ค์ ์ ๊ณฑํฉ์ ๊ณ ๋ คํ ๋ฐฉ๋ฒ, ๊ตฐ์ง๊ฐ ์ ๋ณด์ ์์ค์ ์ต์ํ ํ๊ธฐ ์ํด ๊ตฐ์งํ๋ฅผ ์งํ
4. k-means ๊ตฐ์ง์ผ๋ก ๋ํ๋๋ ๋น๊ณ์ธต์ ๊ตฐ์ง๋ฐฉ๋ฒ์์ ๊ตฐ์ง์ ๊ฐ์์ธ k๋ฅผ ๋ฏธ๋ฆฌ ์ ํด์ฃผ์ด์ผํ๋๋ฐ ์ด๋ ๊ตฐ์ง์์ ๋ฐ๋ฅธ
์ง๋จ ๋ด ์ ๊ณฑํฉ์ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค ๊ตฐ์ง์ ์๋ฅผ ์ ํ๋ค.
5. ๋ก์ง, ๋ก์ง๋ณํ
6. ํ์ฑํํจ์
- ์ ๊ฒฝ๋ง ๋ชจํ์์ OUTPUT์ ๊ฒฐ์
- ์ ๋ ฅ์ ํธ์ ์ดํฉ์ ์ถ๋ ฅ์ ํธ๋ก ๋ณํํ๋ ํจ์
์ข ๋ฅ : ๊ณ๋จ, ์๊ทธ๋ชจ์ด๋, ReLU, Softmax ๋ฑ์ด ์๋ค.
7. ์๊ณ์ด๋ชจํ
AR๋ชจํ (์๊ธฐํ๊ท ๋ชจํ) |
- ํ์์ ์ ์๋ฃ๋ฅผ p์์ ์ ์ ์ ํ๊ฐ์ ์๊ธฐ์์ ์ ๊ณผ๊ฑฐ๊ฐ์ ์ฌ์ฉํ์ฌ ์ค๋ช
- ๋ฐฑ์์ก์์ ํ์ฌ๊ฐ๊ณผ ์๊ธฐ์์ ์ ๊ณผ๊ฑฐ๊ฐ์ ์ ํ ๊ฐ์ค๊ฐ์ผ๋ก ์ด๋ฃจ์ด์ง ์ ์ํ๋ฅ ๋ชจํ |
MA๋ชจํ (์ด๋ํ๊ท ๋ชจํ) |
- ๊ณผ๊ฑฐ q์์ ์ด์ ์ค์ฐจ๋ค์์ ํ์ฌํญ์ ์ํ๋ฅผ ์ถ๋ก - ์ต๊ทผ ๋ฐ์ดํฐ์ ํ๊ท ์ ์์ธก์น๋ก ์ฌ์ฉ, ๊ฐ๊ณผ๊ฑฐ์น๋ ๋์ผ ๊ฐ์ค์น - ํ์์ ์ ์๋ฃ์ ๊ณผ๊ฑฐ ๋ฐฑ์์ก์์ ์ ํ๊ฒฐํฉ์ผ๋ก ํํ - ํญ์ ์ ์์ฑ์ ๋ง์กฑ |
ARIMA ๋ชจํ (์๊ธฐํ๊ท ๋์ ์ด๋ํ๊ท ๋ชจํ) |
- ํ์ฌ์ ์ถ์ธ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์ - ๋น์ ์์ ์๊ณ์ด๋ชจํ - ARIMA(a,b,c) > a:AR๋ชจํ ์ฐจ์ b:์ฐจ๋ถ c:MA๋ชจํ์ฐจ์ |
* ์ง์ํํ๋ฒ : ์ผ์ ๊ธฐ๊ฐ์ ํ๊ท ์ ์ด์ฉํ๋ ์ด๋ํ๊ท ๋ฒ๊ณผ ๋ฌ๋ฆฌ ๋ชจ๋ ์๊ณ์ด ์๋ฃ๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ท ์ ๊ตฌํ๋ฉฐ, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ต๊ทผ ์๊ณ์ด์ ๋ ๋ง์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๋ค.
8. ์๊ทธ๋ชจ์ด๋ / ์ํํธ ๋งฅ์ค
9. ์ ํํจ์๋ฅผ ์๊ทธ๋ชจ์ด๋ ํจ์๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ
- ๋ก์ง๋ณํ(logit ๋ณํ)
10. ISP
11. ๋ฐ์ดํฐ ๋ถ์์กฐ์ง ์ ํ
- ๊ธฐ๋ฅํ : ๋ณ๋์ ๋ถ์ ์กฐ์ง์ด ์๊ณ ํด๋น ์ ๋ฌด ๋ถ์์์ ๋ถ์์ ์ํํ๋ ๋ฐฉ์
- ๋ถ์ฐํ
- ๋ณตํฉํ
- ์ง์คํ : ๋ถ์์ ๋ฌด๋ฅผ ๋ณ๋์ ๋ถ์ ์ ๋ด ์กฐ์ง์์ ๋ด๋น, ๋ถ์์ ๋ฌด์ ํ์ ๋ถ์์ ์ด์คํ/์ด์ํ ๊ฐ๋ฅ์ฑ์ด ๋์
12. ํ๊ท๋ถ์์์ ๋ค์ค๊ณต์ ์ฑ์ ํ๊ท๊ณ์์ ๋ถ์ฐ์ ์ฆ๊ฐ์์ผ ๋ถํ์ค์ฑ์ ์ฆ๊ฐ์ํจ๋ค..!
13. DBSCAN ,DENCLUE > ๋ฐ๋๊ธฐ๋ฐ
14. ๊ตฐ์ง๋ถ์ > ์ด์ง์ ์ธ ๋ชจ์ง๋จ์ ์ธ๋ถํํ๋ ๊ธฐ๋ฅ
15. ERP / SCM / CRM
ERP๋ ์ ์ฌ์ ์์๊ด๋ฆฌ [Enterprise Resource Planning, ๅ
จ็คพ็่ณๆบ็ฎก็]๋ฅผ ๋งํ๋ ๊ฒ
SCM์ ๊ณต๊ธ๋ง๊ด๋ฆฌ [supply chain management, ไพ็ตฆ็ถฒ็ฎก็]๋ฅผ ์ด๋ฅด๋ ๋ง
CRM์ ๊ณ ๊ฐ๊ด๊ณ๊ด๋ฆฌ [ customer relationship management , ้กงๅฎข้ไฟ็ฎก็ ]๋ฅผ ์ด๋ฅด๋ ๋ง
17. ์ค๋ฃจ์ฃ๊ณ์ : ๊ตฐ์ง๋ชจํ ํ๊ฐ์คํ๋์ด๋ฉฐ ๊ตฐ์ง์ ๋ฐ์ง์ ๋๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ. ๊ตฐ์ง๋ด์ ๊ฑฐ๋ฆฌ์ ๊ตฐ์ง๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ตฐ์ง๋ถํ ์ ์ฑ๊ณผ๋ฅผ ํ๊ฐํ๋๊ฒ
18. ๊ณ์ธตํ๊ตฐ์ง ๊ฑฐ๋ฆฌ
๋ฏผ์ฝ์ฐ์คํค ๊ฑฐ๋ฆฌ : ๋งจํํ๊ฑฐ๋ฆฌ + ์ ํด๋ฆฌ๋์๊ฑฐ๋ฆฌ ํ๋ฒ์ ํํ
๋งํ ๋ผ๋ ธ๋น์ค ๊ฑฐ๋ฆฌ : ํต๊ณ์ ๊ฐ๋ ์ด ํฌํจ๋ ๊ฑฐ๋ฆฌ๋ก ๋ณ์๋ค์ ์ฐํฌ๋ฅผ ๊ณ ๋ คํ์ฌ ์ด๋ฅผ ํ์คํํ ๊ฑฐ๋ฆฌ
19. ๋ชจํ๊ฒ์
๋ก์ง์คํฑํ๊ท๋ถ์ - ์นด์ด์ ๊ณฑ ๊ฒ์
์ ํํ๊ท๋ถ์ - F๊ฒ์ , T๊ฒ์
20. SOM์์ ์ ๋ ฅ๋ฒกํฐ์ ํน์ฑ์ ๋ฐ๋ผ ๋ฒกํฐ๊ฐ ํ์ ์ผ๋ก ํด๋ฌ์คํฐ๋ง ๋๋์ธต > ๊ฒฝ์์ธต
1. ์๋ฌต์ง์ ํ์์ง์ ์ํธ์์ฉ ๊ด๊ณ
- ๊ณตํตํ
- ํ์ถํ
- ์ฐ๊ฒฐํ
- ๋ด๋ฉดํ
์๊ธ์๋ง ๋ฐ์ ๊ณต ํ ์ฐ ๋ด > (์๊ณ ๋ณด๋) ๊ณฐํ์๋ค ?
2. ๋น ๋ฐ์ดํฐ ํ์ฉ์ ํ์ํ ๊ธฐ๋ณธ์ ์ธ 3์์
- ๋ฐ์ดํฐ
- ๊ธฐ์
- ์ธ๋ ฅ
์๊ธ์๋ง ๋ฐ์ ๋ฐ ์ธ ๊ธฐ > ๋์ธ๊ธฐํผ์ฆ ์๊ฐ
3. 3V
- ์(Volume)
- ๋ค์์ฑ(Variety)
- ์๋(Velocity)
+
- ๊ฐ์น(Value) , ์๊ฐํ(Visualization), ์ ํ์ฑ(Veracity)
4. ์ฉ์ด์ ๋ฆฌ
-์ ์กฐ๋ถ์ผ
- CRM : ๊ณ ๊ฐ ๊ด๊ณ ๊ด๋ฆฌ ๊ณ ๊ฐ ์ค์ฌ ์์์ ๊ทน๋ํ
- SCM : ๊ณต๊ธ๋ง ๊ด๋ฆฌ
- BI : ์์ฌ๊ฒฐ์ ์ ํ์ฉํ๋ ์ผ๋ จ์ ํ๋ก์ธ์ค
- RTE : ํ์ฌ ์ ๋ถ๋ฌธ์ ์ ๋ณด๋ฅผ ํ๋๋ก ํตํฉ
-๊ธ์ต๋ถ๋ฌธ
- EAI : ์ ๋ณด๋ฅผ ์ค์ ์ง์ค์ ์ผ๋ก ํตํฉ ๊ด๋ฆฌ ์ฌ์ฉ ํ ์์๋ ํ๊ฒฝ์ ๊ตฌํ
- EDW : DW๋ฅผ ํ์ฅํ ๋ชจ๋ธ
์ ํต๋ถ๋ฌธ
- KMS : ์ง์๊ด๋ฆฌ ์์คํ
2๊ณผ๋ชฉ
- ๋ถ์๋์์ ์๋ฉด OS , ๋ชจ๋ฅด๋ฉด ID
Optimization ์ต์ ํ
Solution ์๋ฃจ์
Insight ํต์ฐฐ
Discovery ๋ฐ๊ฒฌ
๋ถ์๋ฐฉ๋ฒ๋ก ์ ๊ตฌ์ฑ์์
- ์์ธํ ์ ์ฐจ
- ๋ฐฉ๋ฒ
- ๋๊ตฌ์ ๊ธฐ๋ฒ
- ํ ํ๋ฆฟ๊ณผ ์ฐ์ถ๋ฌผ
๋ถ์๋ฐฉ๋ฒ๋ก ๋ชจ๋ธ
1) ํญํฌ์ ๋ชจ๋ธ : ๋จ๊ณ๋ฅผ ์์ฐจ์ ์ผ๋ก ์งํํ๋ฉฐ ๋ฌธ์ ๋ฐ์์ ์ด์ ์ผ๋ก ๋์๊ฐ๋ ํผ๋๋ฐฑ ์ํ, ํํฅ์ ์ ๊ทผ๋ฐฉ๋ฒ
2) ๋์ ํ ๋ชจ๋ธ : ๋ฐ๋ณต์ ํตํด ์ ์ฆ์ ์ผ๋ก ๊ฐ๋ฐ ( ์ ์ฆ์ด๋ฉด ๋์ ํ )
3) ํ๋กํ ํ์ ๋ชจ๋ธ : ์ฌ์ฉ์ ์๊ตฌ์ฌํญ์ด๋ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ๊ท์ ํ๊ธฐ ์ด๋ ต๊ณ ๋ฐ์ดํฐ ์์ค๋ ๋ช ํํ ํ์ ํ๊ธฐ ์ด๋ ค์ด ์ํฉ์์ ์ฌ์ฉ , ์ํฅ์ ์ ๊ทผ๋ฐฉ๋ฒ (๊ฐ์ค์์ฑ > ๊ฒฐ๊ณผ๋ฌผ์ ํตํด ๊ฐ์ค ํ์ธ > ๊ฐ๋ฐ ๊ฒ์ฆ๊ณผ ์์ฐ๊ฒ์ฆ > ์์ ํ์ถ์ )
๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค ๊ตฌ์ฑ์์
- ์์น(Priciple)
- ์กฐ์ง(Organization)
- ํ๋ก์ธ์ค(Process)
์์ด๋ก POP , (์์กฐ์ธ ํ๋ก) ์ธ์ฐ๊ธฐ