提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|实施案例|编辑:龚雪|2017-04-26 13:52:40.000|阅读 376 次
概述:众所周知,篮球队分为大前锋、小前锋、得分后卫、控球后卫和中锋五个位置,虽然现在无位置篮球正在兴起,但是我们还是可以用球员的历史数据来预测它的位置。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
引言:
众所周知,篮球队分为大前锋、小前锋、得分后卫、控球后卫和中锋五个位置,虽然现在无位置篮球正在兴起,但是我们还是可以用球员的历史数据来预测它的位置。在这里我们就是要对球员进行一个多分类,方法选用经典的决策树和它们的集成方法——随机森林。接下来我们先看一下这五个位置各有什么特点,当然你可能比我更清楚这些内容,但是我们也不是在做无用功,注意加重的文字,我们就从这些里面选择特征。
中锋一般都是整支球队中最高的,能够进行激烈的身体对抗,负责篮板和阻拦,得分方式主要靠勾手、跳投和扣篮。
平均身高:6’11.25″
平均体重:257 lbs
控卫一般都是最矮的球员,应该具有优秀的过人能力和控球能力,而不是作为主要投手。一般控卫都是在攻防转换中带球过场的那个人,在进攻和防守之间控制好球权。优秀的控卫在助攻和抢断上数据很好看。
平均身高:6’2
平均体重:189 lbs
得分后卫一般比控卫要高一点但还是要比前锋矮,他的定位是全队的最佳投手,在其他队友的掩护下投篮得分,也要足够灵活分担控卫的职责。
平均身高:6’5.25″
平均体重:209 lbs
小前锋被视为是进攻时的全能球员,既要足够强转可以在内线对抗又要足够灵活足够在外线驰骋,能够在外线和内线都具有较强的得分能力。
平均身高:6’7.75″
平均体重:225 lbs
大前锋是一个既要身体高大强壮,还要有一定的速度,能够积极进攻并抢得篮板。
平均身高:6’9.5″
平均体重:246 lbs
我们选择了15个变量来进行:
在分析之前,我们先来看一些变量在不同位置中的分布,从而判断什么变量可以帮助我们区分不同的位置。以下几个可视化的图表显示了这15个变量的分布。可以清晰地发现,中锋和大前锋在篮板和盖帽的数量上独领风骚,这就很可能成为决策树的分支变量。更加显著的是助攻数据,看到这里我认为要获得一个高的预测准确度还是容易达到的。
决策树类似于一个向你问问题的机器。比如我们有一个新球员,要预测他的位置。决策树就会问:“它的总篮板数是多少”,然后你给它一个答案,它向你问的下一个问题是基于上一个问题的答案,直到他问的问题足够多以后他不会再问了而是告诉你这个球员会打什么位置。决策树很好理解而且做出来的图也很直观。
混淆矩阵显示中锋和大前锋预测正确率在50%左右,因为这两个位置往往可替代性很强,混淆的部分也很大。我们也看到了控卫的预测正确率有80%。做的这里我就想随机森林的结果一定会更好。
过拟合是指一个模型训练的程度过头了,导致这了模型把很多因为抽样所带来的随机因素考虑进去,从而导致模型的泛化能力差,在决策树中主要是没有进行剪枝的问题。可以从图中看出这个决策树的分支很多,数比较深。而混淆矩阵显示模型的预测准确率变差了。从方差—偏差权衡的角度来看,过拟合往往是因为过于注重控制偏差,反而使方差超过了最优水平。
随机森林是把很多的决策树组合在一起的集成算法,在下面我们可以看到在模型集成的过程中加入了随机因素,所以综合称之为随机森林。
在展示结果之前,我们先来剖析一下模型的训练过程。我们确定要集成的决策树数目为T,第一步是为每一棵树随机抽取一个样本子集,一般为样本全集的2/3。第二步是在树的每个节点上随机抽取m个特征作为特征子集。第三步是树的生成,在每个节点上选择一个最佳的特征进行分支。在下一个节点上继续随机选择m个特征重复以上步骤。
在我做的过程当中,我只注重调整两个影响力最大的参数,就是ntree和ntry,ntree就是指数的数目T,mtry就是指随机抽取的样本子集的大小m。
对于第一个参数T我设置为180,这个图 展示了每个参数值对应的最小袋外误差。
对于参数m我设置为9,从下图袋外误差中可以看出当m=9的时候误差最小。
从混淆矩阵显示结果来看,随机森林的预测结果明显优于决策树,尤其是控球后卫的预测结果较好,但是对大前锋和得分后卫的预测精度就有些下降了。我的数据集还是有些太少,如果我们用更多的数据,随机森林的效果必然有更高的提升。在我下一步的计划中,我想从50个赛季中抓取数据,然后做一个类似的分析看看最终结果如何。
这篇博客是利用NBA球员的历史数据来预测球员的位置,我用的是决策树和它的集成算法随机森林。结果显示随机森林表现得更好一点,但是提升空间也很大。
译者注:从混淆矩阵结果来看并没有预想的那么好,另外作者明明在介绍各种位置的时候着重介绍了身高和体重的问题却没有将其加入特征全集中,也有特征选用少的原因。有兴趣的朋友可以进一步尝试扩大数据集和特征集以求更好的结果。
以下是代码集,作者用的是R语言。
原文作者:Jurgen 译者:Cup
原文链接:
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn
TeeChart 为先进的数据集成和可视化工具 RivCross 提供了丰富的图表库,通过提供对水平定向钻井 (HDD) 操作至关重要的强大数据可视化功能增强了 RivCross。
灵犀文档通过嵌入 SpreadJS,文档系统完美复刻了 Excel 的UI架构,并有效提升了系统多人协作和数据处理效率。
GEOsens致力于研发“从传感器到互联网”的在线监测和控制系统,使用TeeChart超过15年,TeeChart 成为了GEOsens访问数据的关键元素,为决策提供了坚实的基础。
ActiveReports 报表降低系统与报表功能的耦合度,使系统的报表功能得以模块化;ActiveReports 报表本身的优良特性,也为系统打造更强的用户体验如虎添翼,如数据钻取、交叉报表、数据导出等。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@pclwef.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢