文档彩票走势图>>慧都大数据（二）>>IBM SPSS Modeler 算法优化神器——Bagging 和 Boosting

IBM SPSS Modeler 算法优化神器——Bagging 和 Boosting

在IBM SPSS Modeler中，每个算法都会有相应的默认参数设置，对初学者来说，即使不是很懂算法，也可以生成模型结果，但在实际项目中，我们为了使得模型更加的优化，提升模型的准确率，经常会对算法的参数做一些相应的调整，那么今天，我们给大家介绍两个参数，分别是Bagging和Boosting,让大家了解下它们是怎么用的，能带来什么样的模型优化结果。

用途：

Bagging和Boosting都是用来提高模型准确率的方法。

计算逻辑：

Bagging是Bootstrap Aggregating的一种方式，是一种根据均匀概率分布从数据集中重复抽样（有放回的）的技术。每个自助样本集都和原数据集一样大。由于抽样过程是有放回的，因此一些样本可能在同个训练数据集中出现多次，而其它一些却可能被忽略。假设我设置了Bagging的次数是10，也就是说我会根据上面的重复抽样方式，抽取10份数据，分别构建10个模型，得到10个预测结果，对最后的判定，如果是分类问题采用投票方式，对回归问题采用简单平均方法。

Boosting主要是AdaBoost (Adaptive Boosting),初始化时对每一个训练集赋相等的权重1／n，然后用该学算法对训练集训练t轮，每次训练后，对训练失败的训练例赋以较大的权重，也就是让学习算法在后续的学习中集中对比较难的训练例进行学习，从而得到一个预测函数序列h_1,?, h_m , 其中h_i也有一定的权重，预测效果好的预测函数权重较大，反之较小。最终的预测函数H对分类问题采用有权重的投票方式，对回归问题采用加权平均的方法对新示例进行判别。

Bagging与Boosting的区别：

二者的主要区别是取样方式不同。Bagging采用均匀取样，而Boosting根据错误率来取样，因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的，各轮训练集之间相互独立，而Boosting的各轮训练集的选择与前面各轮的学习结果有关；Bagging的各个预测函数没有权重，而Boosting是有权重的；Bagging的各个预测函数可以并行生成，而Boosting的各个预测函数只能顺序生成。对于像神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量时间开销。

Bagging和Boosting都可以有效地提高分类的准确性。在大多数数据中，Boosting的准确性比Bagging高；在有些数据集中，Boosting会引起退化------过度拟合。