-
Notifications
You must be signed in to change notification settings - Fork 3
Chapter3
์ง๋ ์๊ฐ์ Regression ์ ํด๊ฒฐํ๊ธฐ ์ํด graident descent ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ์๋ค. learning rate, vectorization ๋ฑ์ ๋ํด์ ์์ ๋ณด๊ธฐ๋ ํ๊ณ . ์ด๋ฒ์๊ฐ์ classification ๊ณผ regulrzation ์ ๋ํด์ ๋ฐฐ์ ๋ณธ๋ค.
์ด ์์
์ด ์ฌ๋ฐ๋ ์ด์ ๋ ์์์ ์ฆ๋ช
ํ๋ ๊ฒ๋ณด๋ค ์์์์ ์จ๊ฒจ์ง ๋ด์ฉ๋ค์ ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๊ฒ ์ค๋ช
ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ๊ต์๋ ๊ณผ์ ๋ ์ ๋ฐ ๊ทธ๋ง
regression ์ด continuous value ๋ฅผ ๋ค๋ฃฌ๋ค๋ฉด Classification ์ discrete value ๋ฅผ ๋ค๋ฃฌ๋ค. ๋ฐ๋ผ์ Classification (๋ถ๋ฅ) ์ ์๋,
- ์ด๋ฉ์ผ์ด ์คํธ์ธ์ง / ์๋์ง
- ์จ๋ผ์ธ ๊ฑฐ๋๊ฐ ์ฌ๊ธฐ์ธ์ง / ์๋์ง (Online Transaction: Fraudulent)
- ์ ์ฑ ์ข ์์ธ์ง / ์๋์ง
(http://stats.stackexchange.com)
์์ ๊ฐ์ ๊ฒฝ์ฐ, Regression ์ผ๋ก ๋ฌธ์ ๋ฅผ ํ๋ฉด ๋น์ฅ์ ๋ง์ ๋ณด์ด๋, ์ข ์์ด ์ด์ํ ์์น์ ์๊ฒผ์ ๊ฒฝ์ฐ ์๋์ ๊ฐ์ด ์ง์ ์ด ํฌ๊ฒ ๋ณํ๋ค.
(http://stats.stackexchange.com)
๋ฐ๋ผ์ ์ด๋ ๊ฒ discrete value ์ ๋ํด์๋ Regression ๋ณด๋ค๋ Threshold ์ ๊ธฐ๋ฐ์ ๋์ด, h(x) ๊ฐ ์ผ์ ๊ฐ ์ด์์ด๋ฉด y=1 ๋ก ์์ธกํ๋ ํธ์ด ๋ ์ ํ๋๊ฐ ๋์์ง๋ค. ๊ฒ๋ค๊ฐ regression ์ ์ง์ ์ด๊ธฐ ๋๋ฌธ์, 0 <= y <= 1 ์ธ y ์ ๋ํด์ 0๋ณด๋ค ์๊ฑฐ๋, 1๋ณด๋ค ๋ ํฐ y ๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋ค.
์ด๋ฐ ์ด์ ๋๋ฌธ์ Classification ๋ฌธ์ ์ Regression ์ ์ ์ฌ์ฉํ์ง ์๋๋ค. ๊ทธ๋ฌ๋ y ์ ๋ฒ์๊ฐ 0 <= h(x) <= 1 ์ ๊ฐ์ง๋ Logistic Regression ๋ ์๋ค. ์ด๊ฑด Classification ์ ์ฌ์ฉ๋๊ธฐ๋ ํ๋ค.
์ด์ ์ ์ธ๊ธํ๋ฏ์ด classification ์์ ์์ธก๋ ๊ฐ, ์ฆ h(x) ๊ฐ์ด 0 ๊ณผ 1์ฌ์ด์ ์๊ธธ ๋ฐ๋๋ค. ์ด๋ฅผ ์ํด logistic function, ํน์ sigmoid function ์ด๋ผ ๋ถ๋ฆฌ๋ ์๋ ์์ hypothesis h(x) ์ ์ ์ฉํ๋ฉด ์๋์ ๊ฐ์ ๊ทธ๋ฆผ์ด ๋์จ๋ค.
(http://www.saedsayad.com)
์ด ๋ sigmoid function ์ด ์ ์ฉ๋ h(x) ๋ ์ต๋๊ฐ์ด 1์ด๋ฏ๋ก, ์ด๊ฑด ์
๋ ฅ๊ฐ x ์ ๋ํด์ y ๊ฐ 1์ด ๋์ฌ ํ๋ฅ ์ด๋ผ ๋ณด์๋ ๋๋ค. ๋ฐ๋ผ์
h(x) = P(y = 1 | x ; 0)
Probability that
y = 1, givenx, parameterized by0(theta)
์ด ๋ sigmoid function ์ ๋ณด๋ฉด, X ์ถ์ด 0๋ณด๋ค ํฐ ์ ์์ y ๊ฐ์ด 0.5 ๋ณด๋ค ํฌ๋ฏ๋ก, ์ด ์ ์ดํ๋ถํฐ๋ y ๋ฅผ 1 ์ด๋ผ ์์ธก (predict) ํ๊ณ , ๋ฐ๋๋ก X ์ถ ๊ฐ์ด 0๋ณด๋ค ์์ ์ง์ ์์ y ๋ฅผ 0์ด๋ผ ์์ธกํ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ h(x) = g(0^T * x) ์ด๋ฏ๋ก, ๋ณธ๋์ hypothesis 0^T * x ๊ฐ 0์ด ๋๋ ์ง์ ์ ์ฐพ์ผ๋ฉด ๋๋ค.
(http://blog.csdn.net/abcjennifer/)
์ด์ ์ค์ ๋ก ๋ฌธ์ ์ ์ ์ฉํด ๋ณด์. ๋ค์๊ณผ ๊ฐ์ด ๋๊ฐ์ ์ง๋จ์ด ์์๋, ์ด ๋ ์ง๋จ์ ๊ฐ๋ฅด๋ ์์ ์ฐพ๊ธฐ ์ํ h(x) = g(01 + 01x1 + 02x2) ๊ฐ ์๋ค๊ณ ํด ๋ณด์.
(http://blog.csdn.net/abcjennifer/)
์ด๋ 0(theta) ๋ฅผ [-3; 1; 1] ๋ก ์ก์ผ๋ฉด y ๊ฐ 1 ์ด ๋๋ ์ง์ ์ 0^T * x >= 0 ์ธ ์ง์ , ์ฆ -3 + x1 + x2 >= 0 ์ธ์ง์ ์ ์ฐพ์ผ๋ฉด ๋๋ค. ์ด ์์ ํ์ด์ ์ฐ๋ฉด
x1 + x2 => 3 ์ด๋ฏ๋ก, ์ ๊ทธ๋ฆผ์์ ๋ถํ์ ์ ์ ์ฐพ์ ์ ์๋ค. ์ด ์ ์ Decision Boundary ๋ผ ๋ถ๋ฅธ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด Decision Boundary ๋ g(z) = 0 ์ฆ, h(x) = 0.5 ์ธ ์ง์ ์ด๋ค.
Non-linear dicision boundary ๋ ์ด๋จ๊น?
(http://blog.csdn.net/abcjennifer/)
์ด ๊ฒฝ์ฐ x1^2, x2^2 ์ด๋ผ๋ ์๋ก์ด feature ๋ฅผ ๋์
ํ๊ณ , parameter ์ธ theta ๋ฅผ [-1; 0; 0; 1; 1;] ๋ก ์ก์๋ค. ์์ ํ๋ฉด, ์์ ๊ฐ์ ์ ํํ์ Decision Boundary ๊ฐ ๋์จ๋ค.
feature ๋ง ์ ์กฐํฉํ๋ฉด, ์ฆ polynomial ๋ง ์ ๋ง๋ค๋ฉด ๋ ์ฝฉ์ด๋ ํํธ๋ชจ์ ๋ฑ์ Decision boundary ๋ ๋ง๋ค ์ ์๋ค.
์ด์ ๋ฌธ์ ๋ theta ๋ฅผ ์ด๋ป๊ฒ ๊ณ ๋ฅด๋๋ ํ๋๊ฑด๋ฐ, ์์ ์ข ๋ค์ ์ดํด๋ณด์.
(http://www.holehouse.org/)
Linear regression ์์ ์ฌ์ฉํ๋ cost function ์ ์ง๊ธ์ h(x), ์ฆ sigmoid function ์ด ์ ์ฉ๋ h(x) ๋ฅผ ์ ๊ณฑํ J(0) ๋ non-convex ํํ๊ฐ ๋๋ค. ๋ฐ๋ผ์ global optimum ๋ณด๋ค๋ local optimum ์ ์ฐพ๊ฒ ๋๋ค.
์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด์, convex ํํ์ cost function ์ ์ฌ์ฉํด์ผ ํ๋๋ฐ,
(http://www.holehouse.org/)
์ด cost function ์ ์ฌ์ฉํ๋ฉด, y = 1 ์ผ๋ ๋ค์๊ณผ ๊ฐ์ ๊ทธ๋ํ๋ฅผ ์ป๊ฒ ๋๋ค. 0 <= h(x) <= 1 ์์ ์ฐธ๊ณ ํ์. y = 1 ์ผ๋, h(x) = 0 ์ผ๋ก ๊ฐ๋ฉด, cost function ์ ๊ฐ, ์ฆ cost ์์ฒด๊ฐ ๋์์ง๋ฏ๋ก, Cost ๋ฅผ ๋ฎ์ถ๋ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์์ง์ด๊ฒ ๋๋ค.
์ง๊ด์ ์ผ๋ก ๋ณด๋ฉด, h(x) ์์ฒด๋ y = 1 ์ผ ํ๋ฅ ์ธ๋ฐ, y = 1 ์ผ๋, h(x) = 0 ์ด๋ผ๋ ๊ฒ์ ๋ง์ด ์ ๋๋ฏ๋ก ๋น์ฉ์ด ๋ฌดํ๋๋ก ์ฆ๊ฐํ๋ ๊ฒ์ด ๋ง์ด ๋๋ค.
(http://www.holehouse.org/)
๋ฐ๋๋ก y = 0 ์ผ๋์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด h(x) = 0 ์ฆ, y = 0 ์ผ ํ๋ฅ ์ด 0 ์ผ๋ก ๊ฐ๋ cost ๊ฐ ๊ฐ์ํ๋ค.
(http://www.holehouse.org/)
๊ฒฐ๊ตญ ์๋์ ์๋ก์ด logistric regression cost function ์ ์ด์ฉํ๋ฉด, J(0) ๋ฅผ convex function ์ผ๋ก ๋ง๋ค ์ ์๋ค.
(http://www.holehouse.org/)
์ด์ y = 0, y = 1 ๋ก ๋๋์ด์ ธ ์๋ cost function ์ ์ข ๋ ๊ฐ๋จํ ํํํด ๋ณด์.
(http://www.holehouse.org/)
๋ค์๊ณผ ๋์ผํ๋ค. y = 0, y = 1 ์ ์ง์ ๋ฃ์ด๋ณด๋ฉด ๊ธ๋ฐฉ ์ ์ ์๋ค.
cost(hฮธ(x),y) = -y * log(hฮธ(x)) - (1-y) * log(1 - hฮธ(x))
์ ์ด์ ๋ค์ ๋ณธ๋ก ์ผ๋ก ๋์์์, ์ฐ๋ฆฌ๋ ์ฒ์์ `theta` ๋ฅผ ์ฐพ๊ธธ ์ํ๊ณ , ๊ทธ๋์ *gradient descent* ๋ฅผ ์ฐ๋ ค๊ณ ํ๋๋ฐ, ๋ง์นจ ๋ณด๋ `h(x)` ๊ฐ *sigmoid function* ์ด ์ ์ฉ๋ ํํ๋ผ์ *non-convex function* ์ด๋ฏ๋ก, `h(x)` ๋ฅผ ํฌํจํ *cost-function* ์ด *convex function* ์ด ๋๋ ์์ ์ฐพ์๋๋ค. ์ด์ ๊ทธ ์์ *gradient descent* ์ ์ ์ฉํ๋ฉด,
์ด๊ณ , ์ด์ ์ด๊ฑธ batch gradient descent ์ ์ ์ฉํ๋ฉด ์๋์ ๊ฐ์๋ฐ, ์ฌ๊ธฐ์ partial derivative ๋ฅผ ์ ์ฉํ๋ฉด
๋๋๊ฒ๋ linear regression ๊ณผ ๊ฐ์ ์์ด ๋์จ๋ค. ์ค์ค ๋จธ์ ๋ฌ๋ ์ค์ค
(http://www.holehouse.org/)
๋ค๋ง ๋ค๋ฅธ์ ์ hypothesis ๊ฐ sigmoid function ์ ์ ์ฉํ ํํ๋ผ๋ ๊ฒ,
(http://www.holehouse.org/)
์์์ ๋ณด์๊ฒ ์ง๋ง, J(0) ์ ์ต์๊ฐ์ ์ฐพ๊ธฐ ์ํด์๋ ์๋ ๋๊ฐ์ ๊ฐ์ ๊ตฌํด์ผ ํ๋ค.
(http://www.holehouse.org/)
์ด ๊ฐ๋ค์ ์ด์ฉํด์ gradient descent ๋์ ๋ค์์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ์ ์๋ค.
(1) Conjugate gradient
(2) BFGS
(3) L-BFGS
์ด ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ฅ์ ์, leanring rate ๋ฅผ ๊ณ ๋ฅผ ํ์๊ฐ ์๊ณ , ๋๋ถ๋ถ gradient decsent ๋ณด๋ค ๋น ๋ฅด๋ค.
๊ทธ๋ฌ๋ ๋ ๋ณต์กํ๊ณ , ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ง๋ค ๊ตฌํ์ด ๋ค๋ฅผ ์ ์์ผ๋ฉฐ, ๋๋ฒ๊น ์ด ํ๋ค์ ์๋ค. ์ ์ด์ advanced optimization ์ ์ด์ฉํด ๋ณด์.
(http://www.holehouse.org/)
์์ ๊ฐ์ ์์ ๋ํด์ cost function ์ octave ์์ ์ด๋ ๊ฒ ๋ง๋ค ์ ์๋ค.
(http://www.holehouse.org/)
์ด์ , octave ์์ ์ ๊ณตํด ์ฃผ๋ fminunc ์ ์ฐ๋ฆฌ๊ฐ ๋ง๋ costFunction ๊ณผ ์ด๊ธฐ theta ๊ฐ, ๊ทธ๋ฆฌ๊ณ ์ต์
์ ์ง์ด ๋ฃ์ผ๋ฉด
% define the options data structure
options= optimset('GradObj', 'on', 'MaxIter', '100');
% set the initial dimensions for theta % initialize the theta values
initialTheta= zeros(2,1);
% run the algorithm
[optTheta, funtionVal, exitFlag]= fminunc(@costFunction, initialTheta, options); optTheta ๋ ์ฐ๋ฆฌ ์ฐพ๊ธธ ์ํ๋ theta ๊ฐ์ด๊ณ , functionVal ์ ์ต์ข
cost ๋ฅผ ๋๋ ค์ค๋ค. exstFlag ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๋ ดํ๋์ง, ์๋์ง ์๋ ค์ค๋ค.
๋ง์ฝ logistic regression ์ ๋ํ theta ๊ฐ์ ์ฐพ๊ณ ์ถ์ผ๋ฉด, cost function ์ logistic regression ์ ๋ง๊ฒ ์์ฑํ๋ฉด ๋๋ค.
์ด์ ๋จ์ํ y = 0 or 1(binary classification) ์ด ์๋, ๋ค์ํ class ๊ฐ ์๋ classification ์ ๊ณ ๋ คํด๋ณด์, ์๋ฅผ ๋ค๋ฉด ๋ ์จ๋ sunny, cloudy, hot, cold ๋ฑ์ผ๋ก ๋ถ๋ฅ๋ ์ ์๋ค.
multi class ๋ฅผ ๋ถ๋ฅํ ์ ์๋ ํ๊ฐ์ง ๋ฐฉ๋ฒ์, ํ๋๋ฅผ ์ ํ๊ณ , ๊ทธ ๋๋จธ์ง์ ๋ถ๋ฅํ๋๊ฒ์ด๋ค. ์ด๊ฑธ class ๊ฐฏ์๋งํผ ์งํํ๋ฉด,
(http://www.holehouse.org/)
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๊ฒฝ์ฐ, class ๊ฐ 3๊ฐ๊ธฐ ๋๋ฌธ์ (i = 1, 2, 3) ์ผ๋ก ๋์ผ๋ฉด i ๋ง๋ค ๊ฐ๊ฐ์ hฮธ^(i)(x) ๊ฐ, ์ฆ ์์ธก ๊ฐ์ ์ป์ ์ ์๋ค. ๋ฐ๋ผ์ ์๋ก์ด ๋ฌด์ธ๊ฐ๊ฐ input ์ผ๋ก ๋ค์ด์์๋, hฮธ^(i)(x) ๊ฐ์ ์ต๋๋ก ํด์ฃผ๋ i ์ ์ ํํ๋ฉด ๋ถ๋ฅ๊ฐ ๋๋ค. ์ฐธ ์ฝ์ฃ ?
Overfitting ์ ๋๋ฌด๋ ๋ง์ feature ๊ฐ ์์ ๋๋ cost function ์ด ํธ๋ ์ด๋ ์
์ ์ ๋ง์ 0 ์ ์๋ ด ํ์ง๋ง, ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์๋๋ ์์ธก์ ์ ํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค. ๋ค์ ๋งํด hypothesis ๊ฐ ๋๋ฌด ๊ณ ์ฐจ์์ ๋คํญ์์ด์ด์ ๊ทธ๋ ๋ค. (too many parameters) ์ฆ ์๋ ๊ทธ๋ฆผ์์ ์ข์ธก์ ๊ฒฝํฅ์ ๋ํ๋ด๊ธด ํ์ง๋ง ๋ชจ๋ ํธ๋ ์ด๋์
์ ๊ฒฝ์ ํ๋ ์ง์ ์ ๋ง๋ค์ด๋ด์ง ๋ชปํ๋ค. (under fit) ๋ฐ๋ฉด ๊ฐ์ฅ ์ฐ์ธก์, ํธ๋ ์ด๋์
์ ๋ชจ๋ ๊ฒฝ์ ํ๋ hypothesis ๋ฅผ ๋ง๋ค์ด ๋์ง๋ง, ๋คํญ์์ ์ฐจ์๊ฐ ๋๋ฌด ๋์ ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ์์ธกํ์ง ๋ชปํ ์๊ฐ ์๋ค. can't apply, unable to generalize ๊ต์๋์ ๋ค์๊ณผ ๊ฐ์ด ์ฌ๋ผ์ด๋์ ์ ์ผ์
จ๋ค.
It makes accurate predictions for examples in the training set, but it does not generalize well to make accurate prediction on new, previously unseen examples
(http://www.holehouse.org/)
logistic regression ์์๋ Overfitting ์ด ๋ฐ์ํ ์ ์๋ค.
(http://www.holehouse.org/)
์ฃผ๋ก training set ์ด ๋ถ์กฑํ๊ณ feature ๊ฐ ๋ง์๋ ๋ฐ์ํ๋๋ฐ ํด๊ฒฐ์ฑ ์
(1) feature ๋ฅผ ์ค์ผ ์ ์๋ค. ์๋์ผ๋ก ์ฌ์ฉํ feature ๋ฅผ ์ ํํ๋ ๋ฐฉ๋ฒ๊ณผ Model selection algorithm ์ ์ฌ์ฉํ ์๋ ์๋ค.
(2) regularization ์ ์ด์ฉํ๋ค. ๋ชจ๋ feature ๋ฅผ ์ ์งํ์ง๋ง, ์ผ๋ง๋ ๊ฐ feature ๊ฐ prediction ์ ๊ธฐ์ฌํ ์ง๋ฅผ ๋ณ๊ฒฝํ๋ค.
Regularization ์ ์ํ๋ ํ๋ผ๋ฏธํฐ๊ฐ hypothesis ์ ๊ธฐ์ฌํ๋ ๋ฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ๋ง์ฝ์ 0_3 ๊ณผ 0_4 ๋ฅผ ์ต์ํ ํ๊ณ ์ถ๋ค๊ณ ํ์. ๊ทธ๋ผ ๋ค์๊ณผ ๊ฐ์ ์์ ๋ง๋ค๋ฉด ๋๋ค. ์ ์ฒด ์์ ์ต์๊ฐ์ ์ฐพ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์์๊ฐ 1000 ์ธ 0_3, 0_4 ๋ 0(zero) ์ ๊ฐ๊น์ด ์๊ฐ ๋์จ๋ค. ๋ค์ ๋งํด์ ์ด๋ค ๋ ํ๋ผ๋ฏธํฐ๊ฐ ๊ธฐ์ฌํ๋ ๋ฐ๋ฅผ ์ค์ธ ๊ฒ์ด๋ค.
(http://www.holehouse.org/)
parameters ๊ฐ ์์ ๊ฐ์ ๊ฐ์ง์๋ก ๊ฐ๋จํ hypothesis ๊ฐ ๋์ค๊ณ , overfitting ํ์ง ์๋๋ค. ์ด๋ฅผ ์ํด ฮป ๋ผ๋ regularization parameter ๋ฅผ ๊ฐ์ง ์์ cost function ์ ๋ ๋ถ์ฌ parameter ๊ฐ ๊ธฐ์ฌํ๋ ๋ฐ๋ฅผ ์กฐ์ ํ๋ฉด, ์๋์ ๊ฐ์ ์์ ๊ตฌํ ์ ์๋ค. ์ฐธ๊ณ ๋ก ๋ท ๋ถ๋ถ์ ์์ regularization term ์ด๋ผ ๋ถ๋ฅด๋๋ฐ, j ๊ฐ 1๋ถํฐ ์์ํ๋ ๊ฒ์ ์ฃผ๋ชฉํ์. ์ด๋ 0_0 ์ regularization ํ์ง ์๋๋ค๋ ์๋ฏธ์ด๋ค.
(http://www.holehouse.org/)
ฮป ๊ฐ ๋งค์ฐ ํฌ๋ฉด ์ด๋ป๊ฒ ๋ ๊น? 0_0 ์ด์ธ์ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ 0์ ์๋ ด ํ๋ฏ๋ก, hypothesis ๋ ์์๊ฐ ๋์ด ํธ๋ ์ด๋ ์
์ under fit ํ ๊ฒ์ด๋ค.
regularization term ์ผ j ๊ฐ 1๋ถํฐ ์์ํ๋ฏ๋ก, cost function ์ ์ฝ๊ฒ ๊ณ์ฐํ๊ธฐ ์ํด ๋ถ๋ฆฌํ๋ฉด gradient descent ์์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ์ ์๋ค.
(http://www.holehouse.org/)
์ด์ ์ ๋ ์์์ ์๋ ์์ ์ ๋ฆฌํ๋ฉด, ๋ค์๊ณผ ๊ฐ๊ณ
<๋ฉด ๋๋ค. ์ด๋ ์ด ๋งคํธ๋ฆญ์ค์ `(0, 0)`
์ ์์์ ์๋ถ๋ถ์ ์๋์ ๊ฐ๋ค. ๋ณดํต `m` ์ด ๋งค์ฐ ํฌ๊ณ , `a` ๊ฐ ๋งค์ฐ ์์ผ๋ฏ๋ก ์ ๊ฐ์ 1๋ณด๋ค ์๋ค. ์๋ฅผ ๋ค๋ฉด `0.99 * 0_j` ์ฒ๋ผ.
์ด์ Normal equation ์ ์ด๋ป๊ฒ ์ ์ฉํ ์ง ๊ณ ๋ คํด ๋ณด์, ๋ณธ๋ normal equation ์์ ์๋์ ๊ฐ์๋ฐ,
X^T * X ๋ถ๋ถ์ ฮป ๊ฐ ๊ณฑํด์ง๋ n+1 * n+1 ์ matrix ๋ฅผ ๊ณฑํ๋ฉด ๋๋ค. ์ด๋ ์ด ๋งคํธ๋ฆญ์ค์ (0, 0) ๋ถ๋ถ์ด 0 ์ธ ๊ฒ์ 0_0 ์ regularization ์ ์ ์ฉํ์ง ์๊ธฐ ์ํ ๊ฒ.
๊ทธ๋ผ ๋ง์ฝ์ X^T * X ๊ฐ non-invertible ์ด๋ผ๋ฉด ์ด๋ป๊ฒ ๋ ๊น? ์ด๊ฑด ์ง๋ ์๊ฐ์ ์ธ๊ธํ๋ฏ์ด redundant feature ๊ฐ ๋๋ฌด ๋ง๊ฑฐ๋, m <= n, ์ฆ ํธ๋ ์ด๋ ์
์ ๋นํด feature ๊ฐ ๋๋ฌด ๋ง์ ๋ ๋ฐ์ํ๋ค๊ณ ๋งํ๋ค.
๋๋๊ฒ๋, ฮป > 0 ์ด๋ฉด, ์๋ ์์์ X^T * X + ฮป (ฮป's (0, 0) = 0) ์ ์ ๋๋ก invertible ํจ์ ์ฆ๋ช
ํ ์ ์๋ค. ๋ค์ ๋งํด์ regularzation ์ ํตํด์ non-invertible ๋ฌธ์ ๋ ํด๊ฒฐํ ์ ์๋ค๋ ๊ฒ.
(http://www.holehouse.org/)
linear regression ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก 0(theta) ๋ฅผ 0๊ณผ 1๋ก ๋ถ๋ฆฌํด regularization term ์ ์ถ๊ฐํ๋ฉด ๋๋ค. ๋ค๋ฅธ์ ์ h(x) ๊ฐ sigmoid function ์ ํํ๋ผ๋ ๊ฒ.
๊ทธ๋ฆฌ๊ณ gradient descent ๋ฅผ ํ๊ธฐ ์ํด octave ์์ ์ ๊ณตํ๋ ์๊ณ ๋ฆฌ์ฆ๋ค์(conjugate, BFGS, L-BFGS ๋ฑ) ์ fminunc ์ด์ฉํด์ ์ฌ์ฉํ ์ ์๋ค. ์ด๋ฅผ ์ํด ์ธ๊ธ ํ๋ฏ์ด jval ๊ณผ 0(theta) ์ ๋ํ graident ๋ฅผ ๋๋ ค์ฃผ๋ cost function ์ ๋ง๋ค์ด์ผ ํ๋๋ฐ, regularzation term ์ด ์ถ๊ฐ๋์์ผ๋ฏ๋ก ํด๋นํ๋ ๊ฐ์ ๋ํด์ ๊ฐ 0 ์ ๋ํ gradient ๋ฅผ ๊ณ์ฐํ๋ ์์ ๋ง๋ค์ด์ฃผ๋ฉด ๋๋ค.
(http://www.holehouse.org/)
3์ฃผ์งธ์๋ Classification ๊ณผ Regularization ์ ๋ํด์ ๋ฐฐ์ ๋ค. ์์ ์ ์ด๋ ต์ง ์๋ค. ๊ณผ์ ๊ฐ ๋ฌธ์ ์ง ใ ใ ๊ต์๋. ํ์ด์ฌ์ผ๋ก ๊ณผ์ ๋ฅผ ๋ด์ฃผ์ จ์ผ๋ฉด ์ข ๋ ๋ฐฐ์ฐ๋ ๋ง์ด ์์์ํ ๋ฐ์!
(1) why-not-approach-classification-through-regression
(2) http://www.saedsayad.com
(3) http://blog.csdn.net/abcjennifer/
(4) http://www.holehouse.org/
Machine Learning by Andrew Ng, Coursera