提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|使用教程|编辑:我只采一朵|2017-07-13 11:24:03.000|阅读 123 次
概述:你发现,在你的测试集上你只有80%的正确率,这远远地低于你的预期。现在怎么办,你怎么来改进你的模型?
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
作者:Sourabh Bajaj
假如,你手头上正有一个机器学习的项目。你通过各种渠道手机数据,建立你自己的模型,并且得到了一些初期的结果。你发现,在你的测试集上你只有80%的正确率,这远远地低于你的预期。现在怎么办,你怎么来改进你的模型?
你需要更多的数据吗?或者建立个更复杂的模型?还是说调整正则参数?加减特征?迭代更多次?不然全来一遍吧?
最近我的一个朋友也这么问我,他觉得改进模型就是全凭运气。这促使我决定写这篇文章,来告知应该怎么做一个有信息量,有意义的举措。
为了构建一个准确的模型,我们首先要了解模型带来的各种误差。
偏差:偏差误差是来源于模型的期望(平均)预测数值与真实数值之间的差值。
方差:对于一个给定的数值,模型预测结果的变异(波动)程度。
我们想要预测Y,我们的输入是X。我们假设他们两个直接有关系,比如,其中误差项服从正态分布。
我们可能通过线性回归或者其他建模方法得到一个估计,然后在点处的期望误差的平方是:
这个误差能够被拆分成偏差和方差两个组成部分:
必不可少的误差来源于误差项,任何模型都不能够彻底地解决。只有给定问题本身的真实模型和无穷大的数据来修正它,我们能够让偏差和方差项都变成零。然而,在一个没有完美的模型和无穷的数据的世界里,我们必须要在减小偏差和方差中权衡。
现在我们知道权衡偏差和误差这件事了,但是如何改进我们的模型仍然有待考究。我们的模型面对 严重偏离 和 高度变异 的时候应该怎么处理?我们需要绘制模型的学习曲线来解答这个问题。
我们已经明白,问题往往出在偏差或者方差上。这时候,我们要根据不同的情况,做出不同的抉择。
大多数的机器学习系统都是由一个模型链组成的。通常情况下都会有一种困境,你已经有了一个机器学习的管道,但是接下来一步应该做什么呢?上限分析在这里很有帮助。
上限分析每一次在管道中的某一部分中插入一个完美的版本,并且由此来测度我们所观察到的完整的管道能够有多大的提升。这种方法能够帮助我们明白在整个模型链中,哪一步能够带来最可观的优化。
比如说上述的文字识别的管道(模型链),你发现一个完美的字符分割模型能够给整个识别系统提升1%,但是一个完美的字符识别模型能够提升7%。所以相比于改进字符分割模型,我们应该更关注字符识别模型的改进。
本文转载自:36大数据
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn
本文探讨 SQL Server 中 NULL 和空值之间的区别,并讨论如何有效地处理它们。
Unity 是一款功能极其丰富的游戏引擎,允许开发人员将各种媒体集成到他们的项目中。但是,它缺少最令人兴奋的功能之一 - 将 Web 内容(例如 HTML、CSS 和 JavaScript)直接渲染到 3D 场景中的纹理上的能力。在本文中,我们将介绍如何使用 DotNetBrowser 在 Unity3D 中将 Web 内容渲染为纹理。
DevExpress v24.2帮助文档正式发布上线了,请按版本按需下载~
本教程将向您展示如何用MyEclipse构建一个Web项目,欢迎下载最新版IDE体验!
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@pclwef.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢