提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|大数据新闻|编辑:郑恭琳|2020-12-03 13:24:17.083|阅读 385 次
概述:数据集为uci下载的,某家银行电话营销与是否购买定期存储的数据。 模拟目标为知道客户数据,预测购买理财产品概率。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
数据集是从uci下载的,某家银行电话营销与是否购买定期存储的数据。
模拟目标是知道客户数据,预测购买理财产品概率
我认为将电话营销的数据消除只保留基本属性可以模拟实际银行能够获取的数据。
电话营销数据代表一些对用户决定由影响但是获取难度较大的数据。比如说,买房、买车、小孩上学,这些数据银行不能立刻获得,或者获取成本较高。这里不使用这些数据参与预测。虽然预测准确度会降低,但是更符合实际情况。
然后定期存储是一种产品,可以当做一种理财,如果能对一种进行预测行进实现和验证,那么可以扩展到多种产品的预测
数据情况,见下表
Age |
年龄 |
Job |
工作 |
Marital |
婚姻情况 |
Education |
教育情况 |
Default |
违约情况 no无违约 yes 有违约 |
Balance |
账户余额 |
House |
是否买房子 no 无房产 yes 有房子 |
Loan |
贷款 no 无贷款 yes 有贷款 |
数据清洗常规套路(空值检查,去重,去异常值)
由于数据集较好,基本不需要处理,但实现数据很有可能需要清洗,比如说,年龄缺失不能简单补0。
balance处理的尝试
对数据one-hot encoding,对yes,no等2分类用0,1替换
处理之后数据为
使用lightgbm建模,参数如下
对测试集预测的结果左边为客户序号,predict为预测购买的可能性(推荐度),real为真是购买情况(0为未购买,1为已购买)
评价模型的好坏,对于少部分人购买(大部分预测都低于百分之50),很难用accurate去评价
举个例子,
真实情况是A类人购买率0.1,B类人购买率0.2,C类人购买率0.2。
即真实100个A, 100个 B, 100个 C 分别购买为10,20,20
2个模型经过训练对A,B,C,3类人的购买可能性预测为0.3 ,0.2, 0.1;0.15, 0.2, 0.2模型认为A,B,C三类人都不会购买。
accurate为预测正确人数/总人数
accurate(模型1)=accurate(模型2)=250(250没买东西,模型预测所有人都不会购买)/300=83%
如果用accurate去评价,模型1的性能是等于模型2的。
但是显然模型2更符合真实情况,所以这里不再使用accurate来作为标准。
这里使用的方法是,对预测值进行排序,如果预测准确,那么可能性高的人一定会多买产品。通过下图来衡量模型的好坏,红色为随机推荐,绿色为安概率排序后推荐。
如果绿线开始上升越快,说明模型效果越好。
这图除了来衡量模型好坏,也是一个有用的结论:
对一个人群范围,可以先通过模型排序,然后选取一定范围进行营销活动,提高转换率。
这里用1000的人来做标准,之后的模型也使用这个数据来做判断标准。排序前推荐1000人,购买率为104/1000=10.4%,排序后推荐1000人,购买率为270/1000=27%,差距最大点为1362。在推荐1362人是使用排序算法都购买人数和随意推荐差距最大。
特征值的重要程度如下图,可以看出账户余额和年龄是最重要的2个特征值
通过dnn和xgboost建模(具体见py代码)
1000人时,实际购买人数如下图
3种取现
结论分析在目前的参数设置来说 效果为xgboost>lightgbm>dnn
对比试验,之前的数据集是认为只有客户的基础属性,然后对客户的购买可能性做出预测。
现在增加电话营销的数据,来模拟一些营销数据(比如说发过几封推荐邮件)。
新增3个参数为
使用lightgbm建模结果如下
特征值的重要程度如下图,新增的特征值duration(持续通话时间)和campaign(联系次数)对预测有相当重要的影响。
对比没有这3个特征值时的预测(同样使用lightgbm)
这个对比说明了,在有效的特征值越多的情况下,预测越准确。
====== 推荐阅读 ======
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn
大数据分析的一些发展趋势将为企业的未来发展做好准备。大数据分析如今成为政府部门和私营企业以及医疗机构抗击新冠疫情的重要资源。这在很大程度上要归功于云计算软件的发展,很多企业现在可以实时跟踪和分析大量业务数据,并相应地对其业务流程进行必要的调整。
生产质量分析是从工厂订单下单-订单生产-流入市场, 针对整个生产链进行全面的质量分析。其中最重要的一环就是对于质量控制。
生产质量分析主要是为了帮助企业更快更准确的发现产品的质量问题,找到影响质量的根本原因,改善原因,提高企业产品良率。下面我们看看慧都科技的质量分析到底能帮助企业解决哪些问题?
在工业制造界,企业极不希望发生停机事故。因为,一小时的停机时间会使企业损失上百万人民币甚至更多。除了资金方面的损失之外,停机还意味着,当持续发生设备故障时,对员工的激励难度则会变大。因此,在企业的日常业务运营中,预测性维护就显得十分重要。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@pclwef.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢