lec-02 where dose error come from

1. where dose error come from

1 where dose error come from

一般的 error 有两种：

bias 造成的 error
weight 造成的 error

y ~ y'

y 与 y' 的距离来自于两个方面： bias + variance

Estimator of mean μ

从概率取样的角度来看待 Hypothesis set 和 target fn 的差距：

越简单模型 bias 越大，variance越小
越复杂模型 bias 越小，variance越大
选择了某个模型就选择了某个相对 fn 的 bias 这时候的hypothesis set 就是以这个新的bias为圆心以 variance为半径的圆形分布。

模型越简单，bias越大，variance越小？因为模型没有高次方，很小的input空间的变化掀不起什么大风浪。顶多就是一次项,不会影响过多牵扯model的注意力。但是，由于模型能力不足，也没法对重要feature更强的专有化。所以他离真实的偏差很大。

所以，如果误差主要来自于 bias 那么就是模型太简单叫做underfitting. 如果误差主要来自于 variance 那么就是模型太复杂叫做overfitting

如果 bias -> underfitting, 复杂化模型，添加feature/提高维度如果 variance -> overfitting, 简化模型，减少feature/降低维度

注意 mis-fitting = underfitting + overfitting

·「对正确的feature做强有力的映射」如果feature不太正确或者映射不够强力，这就是underfitting。简化版feature selection就是加入更多的feature，加强映射就是换一个更强的model。

如果加强model超过一个界限,专有化做过了，就会让不重要的feature喧宾夺主。因为feature selection是一个很难搞的东西，你很难决定删除谁，这时候只能用·「普杀」性优化方法 regularization。引入 λ|w|² 不让w太大，然后调整 λ 来调整普杀的强度，λ太大又会退回到 underfitting 的阶段。其次，就是增加更多的 data。引入更多data，更多信息，可以·「调校共识」，就是更合适的feature 会获得更多的权重。原来的样本只有农村家庭，那么上课和作业更重要，但这可能有失偏颇加入城市家庭之后，这个权重的分布比重会微调，会往辅导班移动。这显然更好。

.    --------------------------------------------------------
.    x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16
.    -\--\--\------------------------------------------------
.      \  \  \
.       \  \  \
.        \  \  \ underfitting
.         \  \  \
.          \  \  \
.     +-----------------+
.     |      weak f     |
.     +-----------------+
.
.    --------------------------------------------------------
.    x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16
.    -\------------------------------------------/-----------
.      \      \          |         /      /     /
.       \      \   add more features     /     /
.        \      \        |       /      /     /
.         \      \       |      /      /     / overfitting
.          \      \      |     /      /     /
.        +---------------+-------------------+
.        |                                   |
.        |          Strong f                 |
.        |                                   |
.        |                                   |
.        +-----------------------------------+

Model Selection

Cross validation

N-fold Cross Validation

我觉得这两个林轩田教授的讲解更好但是lihongyi教授说了一个注意事项很重要：

Using the results of public testing data to tune your model is very DANGROUS!!!

you are making public testing set better than private testing set

lec-02 where dose error come from

Table of Contents

1 where dose error come from