处理非线性数据集的方法之是添加更多特征, 比如多项式特征,某些情况下,这可能导致数据集变得线性可分离。
下图是一个简单的数据集,只有一个特征x,可以看出,数据集线性不可分,但是如果添加第二个特征x2=(x1)2,生成的2D数据集则完全线性可分离。
一个简单的方法就是将每个特征的幕次方添加为一个新特征,然后在这个拓展过的特征集上训练线性模型。
一般情况下,添加所有特征组合。例如,有两个特征a和b,阶数3, 不只要添加特征a2、a3、 b2 和b3,还会添加组合ab、a2b 以及ab2。
处理非线性数据集的方法之是添加更多特征, 比如多项式特征,某些情况下,这可能导致数据集变得线性可分离。
下图是一个简单的数据集,只有一个特征x,可以看出,数据集线性不可分,但是如果添加第二个特征x2=(x1)2,生成的2D数据集则完全线性可分离。
一个简单的方法就是将每个特征的幕次方添加为一个新特征,然后在这个拓展过的特征集上训练线性模型。
一般情况下,添加所有特征组合。例如,有两个特征a和b,阶数3, 不只要添加特征a2、a3、 b2 和b3,还会添加组合ab、a2b 以及ab2。