Summarise: [SL] Natural Cubic Splines

碰到需要作預測、分類等分析時，在沒什麼限制的狀況下，通常會先考慮一個簡單並且容易解釋分析結果的方法，
再去依照分析結果與探索性資料分析的結果，互相比對進行優化，所以像 Linear Regression, Logistic Regression 這類線性加法模型，算是最常用的分析方法。

由於使用 $X$ 的線性組合表達方式，使得解釋起來較為清楚易懂；同時在變數數量很多，資料數量偏少 (n小p大) 的情況，
這類模型往往比較容易能夠避開 Overfitting 的情況(或採用 Penalization, Stepwise Selection等方式)。

但有時候現實資料中，$Y$ 與 $X$ 常常不是一個線性的關係，基本上在散佈圖中可以大概看出 $Y$ 跟 $X$ 之間是否具有非線性的關係，
配適線性模型後，根據殘差判斷是否需要加入其他項次，一個個加入 $X$ 的多項式項與交互作用項，最後反覆根據殘差進行相對應的調整。

也因為上述，若要一個個調整，放入 $X$ 的多項式項會是很頭大的一件事情，所以發展出能夠自動配適非線性關係的 Generalized Additive Models (GAM) 。

GAM 簡單的說，就是把每一個 $X$ 先表示成一個不預先定義的平滑函數線性組合，假設真實模型為 $ Y=X^{2} $ ，若令一函數 $g(X)=X^{2}$ ，真實模型可寫成 $Y=g(X)$，
但現實中，我們不知道 $g(X)$ 的真實函數表達式為 $X^{2}$，因此我們使用近似函數 $\hat{g}(X)$ 來替代 $X^{2}$，$\hat{g}(X)$ 這個函數我們利用多項式的 Basis 與 $X$ 進行線性組合來近似，
並且這個近似的函數會保有連續、平滑、可二次微分等良好的性質。

本篇主題 Natural Cubic Splines 即是一個近似的方法，當然還有其他像 B-Spline 等各有優缺點的近似方法，待後續再作討論。

$$ N_{1}(X)=1, N_{2}(X)=X, N_{k+2} (X)=d_{k} (X) - d_{K-1} (X) $$
$$ d_{k}(X)=\frac{(X-\xi_{k})^{3}_{+}-(X-\xi_{K})^{3}_{+}}{\xi_{K}-\xi_{k}}$$

Natural Cubic Spline for Sepal.Width (y) ~ Sepal.Length (x)

Summarise

2016年5月26日星期四

[SL] Natural Cubic Splines

沒有留言:

張貼留言

2016年5月26日 星期四

[SL] Natural Cubic Splines

沒有留言:

張貼留言

2016年5月26日星期四