๋ฐ์ดํฐ ์ฒญ๋ ์บ ํผ์ค ํ๋ก์ ํธ 1์กฐ
๊ฐ๋ฐ๊ธฐ๊ฐ : 2021/08/02 ~ 2021/08/27
Notion Link : https://nervous-stranger-60b.notion.site/Insurance-Fraud-Prediction-9a9d4408c8c64753afa16497aec26d60
๊ธ์ต๊ฐ๋ ์ ์๋ฃ์ ๋ฐ๋ฅด๋ฉด 2015๋ ๋ ์ดํ ๋ณดํ์ฌ๊ธฐ ๊ฑด์๋ ๊พธ์คํ ์ฆ๊ฐํ์๋ค.
ํนํ, 2020๋ ๋๋ถํฐ ์ฝ๋ก๋ ๋ฐ์ด๋ฌ์ค ํ๋ฐ๋ฏน ์ดํ์๋ ๋ณดํ์ฌ๊ธฐ ๊ธ์ก์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํ์์์ ํ์ธํ ์ ์์๋ค.
์ด๋ฌํ ์ํฉ์์ ๊ฐ์ข ์ฆ๊ถ์ฌ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ ์ ๋ชฉํ ๋ณดํ์ฌ๊ธฐ ์์ธก ์์คํ ์ ๊ฐ๋ฐํ์์ผ๋ฉฐ, ๋ํ์ ์ธ ์๋ก๋ ๊ต๋ณด์๋ช ์ K-FDS, KB์ํด๋ณดํ์ SMA ์์คํ ๋ฑ์ด ์๋ค.
๊ทธ๋ฌ๋ ๊ธฐ์กด ๋ณดํ์ฌ์ ์์ธก ์์คํ ์๋ ๋ณดํ๊ธ์ ๋ฐ์์ผํ ์๋น์๋ฅผ ์ฌ๊ธฐ์๋ก ์ง๋จํ๋ ๋ฑ ์์คํ ์ ๋ํ ์ ๋ขฐ๋๊ฐ ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์๋ค.
๋ฐ๋ผ์ ์ด๋ฒ ํ๋ก์ ํธ๋ ์ฌ๊ธฐ ์ฌ๋ถ์ ๋ํ ์์ธก์ ํ๋ฅ ๋ก ๋ํ๋ด์ด ๋ณด์ํ๊ณ , ๋ณดํ์ฌ๊ฐ ๊ณ ๊ฐ์ ๊ด๋ฆฌํจ์ ์์ด ๋ ํจ์จ์ ์ธ ์ด์์ ํ ์ ์๋๋ก ์์ธก๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐ์ ๊ฐ๋ฐ ๋ชฉ์ ์ ๋๋ค.
Raw_Data ํด๋ ๋ด๋ถ์ 4๊ฐ์ ๋ฐ์ดํฐ ์ ํ์ผ์ ๊ฐ๊ฐ ๋ณดํ์ฌ ๊ฐ์ ํ์์ ๋ณด(CUST), ๊ณ ๊ฐ๋ณ ์ฒญ๊ตฌ(CLAIM), ๋ณดํ์ค๊ณ์ฌ ๊ด๋ จ ๋ฐ์ดํฐ(FPINFO), ๋ณดํ ๊ณ์ฝ ๊ด๋ จ ๋ฐ์ดํฐ(CNTT)์ด๋ค.
์ด๋ค์ ์ ์ ๋ฅผ ์ํ์ฌ ์ธ์ฝ๋ฉ ๋ฐฉ์์ UTF-8๋ก ๋ง์ถ๊ณ , CSVํ์ผ๋ก ๋ณํํ ๊ฒ์ด Converted_Data ํด๋ ๋ด๋ถ ์ปจํ ์ธ ์ด๋ค. ํด๋ ๋ด๋ถ ๊ฐ ํ์ผ์ ๋์ํ๋ ๋ด์ฉ์ RAW_DATA์ ๊ฐ๋ค.
์ ์ ๊ณผ์ ์ ์์ด ์ฒซ๋ฒ์งธ ๋ชฉํ๋ ๋ถ์์ ๊ฐ์ฅ ์ฉ์ดํ ์ต์ ์ ๋ฐ์ดํฐ ์ ์ ์ฐ์ถํ๋ ๊ฒ์ด์๋ค. ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ์ปฌ๋ผ์ ํฉ์น๊ฒ ๋๋ฉด 70๊ฐ ์ด์์ ์ปฌ๋ผ์ด ์กด์ฌํ๊ฒ ๋๊ณ , ์ด๋ ๊ฒ ๊ณผํ ์์ ์ปฌ๋ผ์ ๋ฐ์ดํฐ ๋ถ์์ ์ฉ์ดํ๊ฒ ํ์ง ๋ชปํ๋ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ์๋ค.
๋๋ฌธ์, ์ฐ๋ฆฌ๋ 1. CNTT + CUST + FPINFO ๋ณํฉ๋ณธ, 2. CUST + CLAIM ๋ณํฉ๋ณธ, 3. ์ ๋ฐ์ดํฐ ์ ๋ณํฉ๋ณธ์ผ๋ก ๋๋์ด ์ ์ ๋ฅผ ์งํํ์๋ค. (์ด๋ค๊ณผ ๊ด๋ จ๋ ์ฝ๋ ๋ฐ ์ ์ฒ๋ฆฌ ํ CSVํ์ผ์ Data_Processing branch์์ ํ์ธํ ์ ์๋ค.)
๊ฐ ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ์ปฌ๋ผ ์ ๋ณด์ ์ ํจ ์ปฌ๋ผ์ ์๋์ ๊ฐ๋ค.
CUST_ID : ๊ณ ๊ฐ์ ๊ณ ์ ์์ด๋์ด๋ค. ๋ณํฉ์ PK๋ก์ ์ญํ ์ ํ๋ฉฐ, ๋ถ์์ฉ ๋ฐ์ดํฐ ์ ์์ ๊ณ ์ ํ๋ค.
SIU_CUST_YN : ๋ณดํ์ฌ๊ธฐ์ ์ฌ๋ถ์ด๋ฉฐ, ๋ถ์ ๊ณผ์ ์ ์์ด Target Data๊ฐ ๋๋ค. 1 : Y, 2 : N์ binaryํํ ๋ฐ์ดํฐ์ด๋ฉฐ, ์ง๋ ํ์ต์ ์์ด ๊ฐ์ฅ ์ค์ํ ์ญํ ์ ํ๊ฒ ๋๋ค.
SEX : ๊ณ ๊ฐ์ ์ฑ๋ณ. 1 : MALE, 2 : FEMALE
AGE : ๊ณ ๊ฐ์ ๋์ด
FP_CAREER : ๊ณ ๊ฐ์ ๋ณดํ์ค๊ณ์ฌ ์ด๋ ฅ ์ฌ๋ถ
MAX_PRM : ์ต๋ ๋ณดํ๋ฃ, ๋น์ฌ์ ์ต๋ ๊ท๋ชจ ๋ณดํ๋ฃ๋ฅผ ๋ฉ์ ํ ์ ๋ณดํ๋ฃ ์์ค์ผ๋ก, 10๋ง ๋จ์๋ก 1์ฉ ๋๊ณ
RESL_CD1 : ๋ณดํ ์ฌ๊ณ ์ ๋ํ ๊ฒฐ๊ณผ ์ฝ๋
ACCI_OCCP_GRP : ๋ณดํ ์ฒญ๊ตฌ์์ ์ง์ ์ฝ๋
CHME_LICE_NO : ๋ํ ๋ด๋น์์ฌ๋ฉดํ๋ฒํธ
DMND_AMT : ์ฌ๊ณ ๋ณดํ๊ธ์ฒญ๊ตฌ๊ธ์ก
PAYM_AMT : ์ค์ง๊ธ๊ธ์ก
NON_PAY_RATIO : ์ค์๋น๊ธ์ฌ๋น์จ
HEED_HOSP_YN : ์ ์๋ณ์์ฌ๋ถ
CLAIM_CNT : ๋ณดํ ์ฒญ๊ตฌ ๊ฑด์
TOTAL_VLID_HOSP_OTDA : ์ ํจ์ ์ ๋ฐ ํต์์ผ์์ ํฉ
HOSP_VARIES : ๋ณดํ ์ฒญ๊ตฌ๊ฑด์ ๋ํ์ฌ ๋ค๋ ๋ณ์์ ๊ฐฏ์
HOSP_DVSN_VARIES : ๋ณดํ ์ฒญ๊ตฌ๊ฑด์ ๋ํ์ฌ ๋ค๋ ๋ณ์์ ์ข ๋ฅ ๊ตฌ๋ถ ๋๊ณ
CHME_LICE_COUNT : ๋ด๋น์์ฌ ๋ฉดํ ๊ฑด์
์๊ด๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, SIU_CUST_YN๊ณผ CLAIM_CNT, TOTAL_VLID_HOSP_OTDA, HOSP_VARIES, HOSP_DVSN_VARIES, CHME_LICE_COUNT๊ฐ ์ ํจํ๊ฒ ๊ด๋ จ์๋ ์ปฌ๋ผ์์ ํ์ธํ ์ ์๋ค.
๋ค์คํ๊ท๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, MINCRDT, CAUS_CODE, CLAIM_CNT, TOTAL_VLID_HOSP_OTDA, HOSP_VARIES, HOSP_DVSN_VARIES, CHME_LICE_COUNT ๋ฑ์ด ์ ํจํ ์ปฌ๋ผ์์ ํ์ธํ ์ ์๋ค.
Random Forest์ ๋ณ์์ค์๋ ๋ถ์ ๊ฒฐ๊ณผ๋ก๋ถํฐ CLAIM_CNT, TOTAL_VLID_HOSP_OTDA, HOSP_VARIES, HOSP_DVSN_VARIES, CHME_LICE_COUNT, HEED_HOSP_YN, NON_PAY_RATIO ๋ฑ์ด ์ ํจํ ์ปฌ๋ผ์์ ํ์ธํ ์ ์๋ค.
์ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ ๊ฒฝ์ฐ, ์๋์ ๊ฐ์ 5๊ฐ์ ์ปฌ๋ผ์ด ์ธ ๊ฐ์ง ๋ถ์๋ฒ ๋ชจ๋์์ ๊ณตํต์ ์ผ๋ก ๋ณดํ์ฌ๊ธฐ์ ์ฌ๋ถ์ ์๋์ ์ผ๋ก ๋์ ๊ด๋ จ์ฑ์ ๋ณด์๋ค.
- CHME_LICE_COUNT
- HOSP_DVSN_VARIES
- HOSP_VARIES
- TOTAL_VLID_HOSP_OTDA
- CLAIM_CNT
CLLT_FP_PRNO : FP ์ฌ๋ฒ
INCB_DVSN : ์ฌ์ง ๊ตฌ๋ถ
CUST_ID : ๊ณ ๊ฐ์ ID๋ก, PK๋ก์ ๊ณ ์ ํ ๊ฐ์ ๊ฐ์ง๋ค.
DIVIDED_SET : ๋ฐ์ดํฐ ์ ์ ๊ตฌ๋ถ, TEST OR TRAIN SET์ด๋์ ๋ฐ๋ผ ๊ตฌ๋ถ๋๋ฉฐ, ๋ถ์์์ ์ ๊ฑฐ๋ ๊ฐ๋ฅ์ฑ ์์
SIU_CUST_YN : ๋ณดํ์ฌ๊ธฐ ์ฌ๋ถ๋ก, ๋ถ์์์ Target Data์ผ๋ก binaryํ ๋ฐ์ดํฐ
SEX : ๊ณ ๊ฐ์ ์ฑ๋ณ(1 : male, 2 : female)
AGE : ๊ณ ๊ฐ์ ๋์ด
FP_CAREER : FP๊ฒฝ๋ ฅ ์ฌ๋ถ๋ฅผ ์๋ฏธ
OCCP_GRP : ์ง์ ๊ทธ๋ฃน์ฝ๋
TOTALPREM : ํ์ฌ๊น์ง ๋ฉ์ ํ ์ด ๋ณดํ๋ฃ
WEDD_YN : ๊ฒฐํผ ์ฌ๋ถ
MAX_PAYM_YEAR : ์ต๋ ๋ณดํ๋ฃ๋ฅผ ๋ฉ์ ํ ์ฐ๋
MAX_PAYM_MONTH : ์ต๋ ๋ณดํ๋ฃ๋ฅผ ๋ฉ์ธํ ์
MAX_PRM : ๋น์ฌ์ ์ต๋๊ท๋ชจ์ ๋ณดํ๋ฃ๋ฅผ ๋ฉ์ ํ๋ ์๋ณดํ๋ฃ ์์ค
RGST_MONTH : ๊ณ ๊ฐ๋ฑ๋ก์
RGST_YEAR : ๊ณ ๊ฐ๋ฑ๋ก์ฐ๋
MNTH_INCM_AMT_AVG : ์ฒญ์ฝ์ ์๋ ํ๊ท
MAIN_INSR_AMT_SUM : ์ฃผ๋ณดํ๊ธ ํฉ๊ณ
SUM_ORIG_PREM_SUM : ๊ณ์ฝ(์ฃผ๊ณ์ฝ + ํน์ฝ)์ ์ ์ฒด ๋ณดํ๋ฃ
EXPR_SUM : ์ข ์ ๋ณดํ๋ฃ์ ํฉ๊ณ
CNTT_TERM_AVG : ํ๊ท ๊ณ์ฝ ์์์ผ
WORK_YEARS_MAX : ์ต๋๊ทผ๋ฌด์ฐ์
WORK_YEARS_MIN : ์ต์๊ทผ๋ฌด์ฐ์
EXPR_COUNT : ์ข ์ ๋ณดํ๊ฐ์
์๊ด๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, SIU_CUST_YN๊ณผ ์ ์๋ฏธํ๋ค๊ณ ๋ณผ ์ ์๋ ์ปฌ๋ผ์ด ์์ ์กด์ฌํ์ง ์๋๋ค.
R-squared 0.016 ๋งค์ฐ ์ฝํ ์ค๋ช ๋ ฅ
Adj. R-squared 0.015 ๋งค์ฐ ์ฝํ ์ค๋ช ๋ ฅ
F-statistic 14.3
Prob (F-statistic) 3.53e-23
Log-Likelihood -1429.4
AIC 2879
BIC 2948
SEX 0.0244 3.37 0.001
AGE 0.0084 2.381 0.017
FP_CAREER 0.0444 3.664 0
OCCP_GRP -0.0017 -2.979 0.003
TOTALPREM -0.0031 -4.13 0
MAIN_INSR_AMT_SUM 1.02E-10 6.57 0
EXPR_SUM 1.167e-10 -4.521 0
WORK_YEARS_MIN -0.0013 -2.581 0.01
EXPR_COUNT 0.0029 2.758 0.006
๋ค์คํ๊ท๋ถ์ ๊ฒฐ๊ณผ ์ 9๊ฐ ์ปฌ๋ผ์ ๋ํด์ ์ ์ํ ์ ๋์ ์์น๋ฅผ ์ฐ์ถํ์๋ค.
Random Forest์ ๋ณ์์ค์๋ ๋ถ์ ๊ฒฐ๊ณผ๋ก๋ถํฐ EXPR_COUNT, WORK_YEARS_MIN, WORK_YEARS_MAX์ ์ธ ์ปฌ๋ผ ์ ๋๊ฐ 0.1 ์ด์์ ์ค์๋๋ฅผ ๋ณด์์ผ๋, ์ด๊ฐ์ ๊ฒฐ๊ณผ๋ก๋ Target Data์ ๊น์ ๊ด๊ณ๊ฐ ์๋ ์ปฌ๋ผ์ด ์กด์ฌํ๋ค๊ณ ๋ณด๊ธฐ ์ด๋ ค์ ๋ค.
์ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ, CNTT์ FPINFO ํ ์ด๋ธ์์๋ CUST_ID ์์ SIU_CUST_YN์ ๊ตฌ๋ถํด๋ด๊ธฐ ์ด๋ ต๋ค๋ ๊ฒฐ๋ก ์ ๋์ถํ์๋ค.
์์ ๋ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ฐ๋ฆฌ๋ ์ ์๋ฏธํ ์ปฌ๋ผ์ 8๊ฐ์ ๋ ์ถ๋ฆด ์ ์์๋ค.
๊ทธ๋ฌ๋ ๊ฐ๊ฐ์ ํ ์ด๋ธ์์ ๋ ์์ ์ผ๋ก ์กด์ฌํ ๋์ ์ด๋ค์ ํฐ ํจ๊ณผ๋ฅผ ๋ฐํํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก, ์ด๋ค์ ํ๋์ ๋ฐ์ดํฐ์ ์ ๋ณํฉํ์ฌ ๋ถ์์ฉ ๋ฐ์ดํฐ์ ์ ๋ง๋ค ํ์์ฑ์ ๋๋ผ๊ฒ ๋์๋ค.
๋๋ฌธ์ ์ ์ํ ๊ฒ์ด 3๋ฒ์งธ ๋ฐ์ดํฐ์ ์ธ Insurance Data๋ก, ์ด๋ ๋ชจ๋ ํ ์ด๋ธ์์ ์๋์ ์ผ๋ก ์ ์๋ฏธํ๋ค๊ณ ์๊ฐ๋๋ ์ปฌ๋ผ์ ์ถ์ถํด ๋ณํฉํ ๊ฒ์ด๋ค.
์ด ๋ฐ์ดํฐ์ ์ ํฌํจ๋ ์ปฌ๋ผ์ ์๋์ ๊ฐ์ผ๋ฉฐ, ๊ฐ ์ปฌ๋ผ์ ๋ํ ์ ๋ณด๋ ์์์ ์ค๋ช ํ ๊ฒ๋ค์ ํฌํจํ๊ณ ์์ผ๋ฏ๋ก ๋ณ๋๋ก ๊ธฐ์ฌํ์ง ์๋๋ค.
SEX, AGE, FP_CAREER, TOTALPREM, MNTH_INCM_AMT_AVG, MAIN_INSR_AMT_SUM, MINCRDT, CAUS_CODE_COUNT, DMND_RESN_CODE_COUNT, RESL_CD1_COUNT, NON_PAY_RATIO_SUM, CLAIM_CNT, TOTAL_VLID_HOSP_OTDA, HOSP_DVSN_VARIES, CHME_LICE_COUNT
์ด๋ค์ ๋ค์คํ๊ท๋ถ์ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค.
์ด์ ๋ถํฐ์ ๊ณผ์ ์ ์์์ ํ์ ๋ ํตํฉ๋ฐ์ดํฐ InsuranceData.csv๋ฅผ ์ฌ์ฉํ๋ค.
์ด ๊ณผ์ ์ ํ๋ก์ ํธ ๋ชฉ์ ์ ์ ํฉํ ๋ชจ๋ธ์ ์ ํํ๊ณ , overfitting์ ๋ฐฉ์งํ๊ธฐ์ํ ์ํ๋ง ๊ธฐ๋ฒ์ ์ ํํ๋ ๋ฐ์ ์ค์ ์ ์ค๋ค.
InsuranceData.csv์ ๋ํ์ฌ, 3๊ฐ์ง ๋ชจ๋ธ์ ์ ์ฉํด ๊ทธ ์์ธก ์ฑ๋ฅ์ ๋น๊ตํด๋ณด๊ธฐ๋ก ํ๋ค. ์ ์ฉํ ๋ชจ๋ธ์ ๋ค์์ 3๊ฐ์ง์ด๋ค.
Logistic Regression
Random Forest
Support Vector Machine
๋ํ ์ ๋ชจ๋ธ๋ค์ ๋ํ์ฌ ์๋์ sampling ๋ฐฉ์์ ์ ์ฉํด๋ณด๋๋ก ํ๋ค.
SMOTE
BorderlineSMOTE
ADASYN
SVMSMOTE
- SMOTE
- BorderlineSMOTE
- ADASYN
- SVMSMOTE
์ ๊ณผ์ ์ ๊ฒฝ์ฐ, ๋์ฒด์ ์ผ๋ก Accuracy, recall, F1์ ์์น๋ ๋น์ทํ์ผ๋ SVMSMOTE๊ฐ precision ๋ฉด์์ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.
- SMOTE
- BorderlineSMOTE
- ADASYN
- SVMSMOTE
- SMOTE
- BorderlineSMOTE
- ADASYN
- SVMSMOTE
๊ฐ ๋ชจ๋ธ๋ค์ ๊ดํ ์ฑ๋ฅ์ฐจ๋ ์ ์๋ฃ์์ ์ ์ ์๋ฏ์ด ๋๋ ทํ๊ฒ ๋ํ๋์ง ์์ผ๋ฉฐ, ๋์ฒด๋ก ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๋ค๋ง, ์ํ๋ง ๋ฐฉ์์ ๊ฒฝ์ฐ๋ SVMSMOTE๊ฐ Precision ๋ฉด์์ ์๋์ ์ผ๋ก ๋์ ์์ค์ ๋ณด์๋ค.
๋ณธ ํ๋ก์ ํธ์ ๋ชฉ์ ์ด ๋ณดํ์ฌ์ ํจ์จ์ ์ธ ๊ณ ๊ฐ๊ด๋ฆฌ์ ์๋๋งํผ, LogisticRegression ๋ชจ๋ธ์ Target Data ๋ถ๋ฅ์ ๋ํ ํ๋ฅ ํจ์๋ฅผ ์ด์ฉํ๊ธฐ๋ก ํ๋ค.
์ ๋ฆฌํ๋ฉด, LogisticRegression ๋ชจ๋ธ์ ์ด์ฉํ๋ SVMSMOTE๋ฐฉ์์ผ๋ก ์ํ๋ง์ ํ์ฌ ์์ธก ๋ชจ๋ธ์ ์ฌ์ฉํ๊ธฐ๋ก ํ๋ค.
์ ๊ณผ์ ๊น์ง์ ๋ฐ์ดํฐ์ ์ ๊ตฌ๋ถํ๋ ๋ฐฉ์์ ๋ชจ๋ ์์์ ์ผ๋ก, ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํ๋ จ์ ์ด์ฉํ ์ ์์ผ๋ฉฐ ๋ ธ์ด์ฆ ๊ฐ์ด ํฐ ๋ฐ์ดํฐ๋ค์ด ํ ์ชฝ์ ์ ๋ฆฌ๊ฒ ๋ ๊ฒฝ์ฐ ์ ๋๋ก ๊ฒ์ฆ ๋ฐ ํ๋ จ์ด ์ด๋ฃจ์ด์ง ์ ์๋ค๋ ๋ฌธ์ ์ ์ด ์์ผ๋ฏ๋ก, ๋น์๋ชจ์ ๊ต์ฐจ ๊ฒ์ฆ์ ์ค์ํ์ฌ ๋ฐ์ดํฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ ํ๋๋ฅผ ๋์ด๋๋ก ํ๋ค.
๊ต์ฐจ ๊ฒ์ฆ์ ์์ ๊ฐ์ด ๋ค์ํ TEST SET๊ณผ TRAIN SET์ ๋ง๋ค์ด ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๋ฐฉ์์ด๋ค.
์ฌ๊ธฐ์, ์ฐ๋ฆฌ๋ ๋ถ๊ท ํ์ด ์ฌํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก LABEL๋ค์ด ๋น์ทํ ๋น์จ์ ์ ์งํ ์ ์๋๋ก Stratified K-fold ๋ฐฉ์์ ์ฑํํ์ฌ ๊ต์ฐจ ๊ฒ์ฆ์ ์งํํ์๋ค.
ACCURACY
CONFUSION MATRIX
์๋ TT,FF : FT, TF๋ก ๊ทธ๋ฃนํํ์ฌ ์ด๋ถํํ ํ์ ์๊ฐํ ์ฌ์ง์ด๋ค.
์ ์ฌ์ง์ ๊ฒฝ์ฐ, ์ด๋ก์ ๋ถ๋ถ์ด TT, FF๋ก ์์ธก์ด ์ฑ๊ณตํ์ฌ ์ ๋๋ก ๋ถ๋ฅ๋ ๋ถ๋ถ์ด๊ณ ์ฃผํฉ์ ๋ถ๋ถ์ด ๊ทธ๋ ์ง ๋ชปํ ๋ถ๋ถ์ด๋ค.
์ด๋ค์ ๋ถํฌ๋ X์ถ ๊ธฐ์ค์ผ๋ก ๋ณดํ์ฌ๊ธฐ์์ผ ํ๋ฅ ์ ๋ํ์ฌ 0 : 0.00 ~ 0.1, 1 : 0.10 ~ 0.2 ....์ ๊ฐ์ด ๋ผ๋ฒจ๋งํ์ฌ ๋ํ๋ด์๋๋ฐ, ์ด๋ฅผ ๋ถ์ํด๋ณด๋ฉด N์ผ ๊ฒฝ์ฐ์ ์ ๋๋ก๋ ์์ธก์ ํ ํ๋ฅ ์ด ๋งค์ฐ ๋์ง๋ง Y์ผ ๊ฒฝ์ฐ์ ์ ๋๋ก ๋ ์์ธก ํ๋ฅ ์ ๋งค์ฐ ๋ฎ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๋ฐ๋ก ์์์ ๋ณด์ธ ๋ถ๋ฅ ํํฉ์ ์ค๋ช ํ๋ฏ, ์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด N์ผ๋ก ์ ๋๋ก ๋ถ๋ฅํ ํ๋ฅ ์ด ๋์ ์ฃผ์๋์ ๋๋ถ๋ถ์ ๋ถํฌ๊ฐ ๋ชฐ๋ ค์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๊ทธ๋ฌ๋, ๊ทธ ์ธ ๊ฒฝ๊ณ๋ ์ํ๊ตฐ์ ๊ฒฝ์ฐ ์ ๋๋ก ๋ ์์ธก์ ํ ํ๋ฅ ์ด ์๋์ ์ผ๋ก ๋จ์ด์ ธ ์๊ท๋ชจ ๋ถํฌ๋ง์ด ์์์ ํ์ธํ ์ ์๋ค.


































