再去依照分析結果與探索性資料分析的結果,互相比對進行優化,所以像 Linear Regression, Logistic Regression 這類線性加法模型,算是最常用的分析方法。
由於使用 $X$ 的線性組合表達方式,使得解釋起來較為清楚易懂;同時在變數數量很多,資料數量偏少 (n小p大) 的情況,
這類模型往往比較容易能夠避開 Overfitting 的情況(或採用 Penalization, Stepwise Selection等方式)。
但有時候現實資料中,$Y$ 與 $X$ 常常不是一個線性的關係,基本上在散佈圖中可以大概看出 $Y$ 跟 $X$ 之間是否具有非線性的關係,
配適線性模型後,根據殘差判斷是否需要加入其他項次,一個個加入 $X$ 的多項式項與交互作用項,最後反覆根據殘差進行相對應的調整。
也因為上述,若要一個個調整,放入 $X$ 的多項式項會是很頭大的一件事情,所以發展出能夠自動配適非線性關係的 Generalized Additive Models (GAM) 。
GAM 簡單的說,就是把每一個 $X$ 先表示成一個不預先定義的平滑函數線性組合,假設真實模型為 $ Y=X^{2} $ ,若令一函數 $g(X)=X^{2}$ ,真實模型可寫成 $Y=g(X)$,
但現實中,我們不知道 $g(X)$ 的真實函數表達式為 $X^{2}$,因此我們使用近似函數 $\hat{g}(X)$ 來替代 $X^{2}$,$\hat{g}(X)$ 這個函數我們利用多項式的 Basis 與 $X$ 進行線性組合來近似,
並且這個近似的函數會保有連續、平滑、可二次微分等良好的性質。
本篇主題 Natural Cubic Splines 即是一個近似的方法,當然還有其他像 B-Spline 等各有優缺點的近似方法,待後續再作討論。
$$ N_{1}(X)=1, N_{2}(X)=X, N_{k+2} (X)=d_{k} (X) - d_{K-1} (X) $$
$$ d_{k}(X)=\frac{(X-\xi_{k})^{3}_{+}-(X-\xi_{K})^{3}_{+}}{\xi_{K}-\xi_{k}}$$
Natural Cubic Spline for Sepal.Width (y) ~ Sepal.Length (x) |
沒有留言:
張貼留言