【干货】一文读懂工业大数据的算法与模型基本知识与应用
随着信息化和工业化的深度融合,在目前的工业企业产业链中,二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等得到了越来越广泛的应用,大量在工业生产活动中产生的与经营和设备相关的数据被实时收集并存储,特别是互联网、移动互联网和物联网技术的应用使得大家对这些数据的关注度也越来越高,对这些工业大数据的深入分析和利用有助于改进生产工艺、提高生产效率、降低生产成本、提升产品附加价值。
而算法和模型则是大数据分析体系中关键的核心问题,因此,本次慧都大数据对相关的基本概念和算法计算做一个系统的梳理和介绍。
算法的基本概念
算法/演算法/算则法(algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。英文名称“algorithm”欧几里得算法被人们认为是史上第一个算法。邱奇-图灵论题认为“任何在算法上可计算的问题同样可由图灵机计算”并提出一种假想的计算机的抽象模型,这个模型被称为图灵机。图灵机的出现解决了算法定义的难题,我们可以认为算法就是一系列为了解决问题和实现一定目标而设定的相关规则。
算法和模型是大数据分析系统中的两个问题,很多时候人们无法将这两个概念准确的区分开来,或者在某些场景下经常把算法和模型当做是同一个概念。实际上,算法和模型是有紧密联系的。
数据分析的算法是一般规则,所采用的方法是具有通用性和一般性的,如果需要用算法来解决实际的问题,达到商业的价值,就需要将算法和实际的应用场景结合起来,将算法得到的结果赋予相应的含义,提供决策支持或分析结果,将算法和业务场景结合起来,并对输入和输出的结果进行业务上的处理,就是大数据分析的建模过程,得到的解决方案就是大数据分析模型。
算法的基本特征
确定性:算法中每个步骤都是明确的,对结果的预期也是确定的,例如在预测中的指数平滑算法中,同样的输入数据和平滑系数,得到的结果是确定的,并且无论算法运行多少次,得到的结果都是相同的。
有穷性: 算法必须是有限个步骤组成的过程,步骤的数量可能是几个,也可能是几百个,但是必须有确定的结束条件。在类似遗传算法中,迭代次数或者结果迭代的条件也都是确定的,这种特征保证了算法的效率,同时也是在运行成本和运算结果满意度之间的平衡方式,特别对于一些管理系统中的优化算法,是不可能得到最优解的,只能在可接受的运行效率下得到相对满意的解。
可行性: 算法中的每一个步骤都是可行的,只要有一个不可行,算法就是失败的,或者不能被称为算法。
输入和输出: 算法解决特定的问题,问题来源是算法的输入,期望结果是算法的输出。
目前大数据分析的算法主要还是数据挖掘算法,它大量采用了统计学的思想,原理方法和工具,比如聚类分析、相关分析、主成分分析、回归分析和序列分析等,但是相比于传统的统计学方法,工业大数据的数据挖掘算法有着以下几个方面的区别:
- 工业大数据的数据源样品量巨大,相比于统计学中样本数量大于30就称之为大样本的计量,工业大数据的样本量往往上百万级别的。
- 工业大数据的数据来源和质量与统计学不同。工业大数据的数据来源是实际的工业过程和物联网,对处理和分析的实时性要求很高,这是传统统计学的分析方法中很难做到的。
- 工业大数据分析面对的数据不仅包括传统统计学中的结构化数据,也包括非结构化和异型数据。
- 传统的统计学方法在对大规模数据进行处理时的效率较低,因此神经网络和遗传算法等机器学习和人工智能算法是工业大数据经常采用的方法。
常见算法及分类介绍
01.预测算法
预测算法,顾名思义就是对某个问题做出预测,通常说来预测的目标是数字形式的连续值,例如房价、GDP等等。根据预测方法的不同,又可以分为外生预测和内生预测。
例如预测产品的需求量,外生预测是根据会影响物流需求量的外部因素,例如地理位置、经济发展水平等对某个区域的物流需求量进行估计,典型的例子是线性回归,将希望预测的物流需求量作为因变量,位置和经济发展水平作为自变量,用一个算式将二者之间的关系表示出来,物流需求量=a*位置+b*发展水平,求a和b的过程就是线性回归算法的过程。很多监督类算法都具有数值预测能力,例如:神经网络、决策树、贝叶斯网络、KNN、SVM等。
而内生预测,主要是指时间序列分析,则是通过物流需求量的历史变化估计其未来趋势,通过分解历史变化中的总体趋势、周期性、季节性、波动性等要素,预测未来值。例如ARIMA,移动平均、指数平滑等。
还有一类是主观预测法,例如德尔菲法,层次分析法AHP等,这在大数据分析中作为专家知识对其他预测方法就行修正,或者作为平滑系统、移动平均系数的先验条件。
02.分类算法
分类算法,也被称作有监督算法,主要是针对离散属性值的判断和预测,如故障检测和诊断、客户细分在某些方面与预测算法类似,都是对一个预先存在的目标变量进行估计。但是,预测算法的目标通常是数字形态的值,而分类算法则是一个类别。一个典型的例子是设备的故障诊断。这时候,目标是设备“是/否”正常运行或者,也就是说是一个类别。
我们可以利用设备已有的运行参数和故障状态建立一个分类模型,这部分已有的用户中包含那些正常运行和不同故障等级的运行参数,然后就可以用这个分类模型判断一个新的设备运行状态参数是否正常运行。用来建立模型的那部分数据叫做“训练数据”。
分类算法是工业大数据分析中应用中常的一类算法,它包含经典的决策树算法贝叶斯分类算法、逻辑回归、判别式,也包含支持向量机、神经网络这些较新的方法。分类算法的模型在实际应用中经常表现为一个“黑箱”,只要能得到满意的分类结果,模型内部的细节可能是不可见的。
03.细分算法
与监督算法相对应的是也被称为无监督算法的一类细分算法,它和分类算法相类似的地方是,它们的目的都是把数据分成几个不同的类别。但是,分类算法的类别是已经存在的,就像前面提到的设备故障诊断,我们能够对设备已有的运行状态参数进行故障等级的划分。但细分算法不同,它没有这样一个预先分好的类别,而是根据数据本身的分布特点,“自然而然”地划分出类。
细分算法常见的应用是客户细分,购物中心根据会员的消费金额、消费频次和最近一次消费时间将会员划分为不同价值的群体。在实施细分算法之前,我们并不知道这些会员可能被分为几类,每个类别是什么,只有建立细分模型之后,才能根据划分出类别在这三个方面表现出的特点归纳出每一类具体是什么。
在工业生产中,细分算法往往应用于工艺优化,比如对车间生产历史数据的细分算法,得到工艺参数与产品质量、能耗水平的影响关系,从而提升制造水平。对生产过程和设备使用过程中异常点的细分,对设备潜在性能提升提供依据。
细分算法中主要的就是聚类,主要有基于距离的层次聚类和k-means聚类,基于密度的DBSCAN聚类,以及模糊聚类和核聚类等方法。
04.关联规则算法
关联规则的主要目标在于发现数据中所存在的关系,这种关系会以规则的形式表现出来。例如购物篮分析就是典型的关联规则算法的应用场景。它的目标是发现消费者在超市购买商品时哪些商品同时购买的机会比较高,或者购买某一项商品时,同时购买哪个商品的几率比较高。通过这样的分析,我们就可以发现购买商品之间的关联关系,从而实现优化货架摆放、提升销售额的目的。
关联规则算法可以作为最终的算法目标,也可以作为其他算法的手段,比如通过关联规则算法找出某些因素之间的相关性,作为数据降维的手段,或者作为回归分析的依据。
关联规则经典的算法是Apriori算法,但是由于它本身具有适应吗窄、会产生大量中间集的缺陷,许多专家学者提出了一些改进的算法提供Apriori算法的效率,包括基于抽样技术、基于动态的项目集计数、基于划分的方法、基于hash计数以及事务压缩等方法。除此之外,有出现了其他的算法,其中频繁树(FP-Tree)算法的应用也十分广泛。
05.数据融合算法
数据融合算法主要是把数据融合的思想引入到工业大数据的预处理过程中,加入数据的智能化合成,产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断,解决工业大数据的数据源中存在的重复、冗余、错误和噪声。比较常见的一个场景是对传感器测量数据误差的处理,假设在工业设备中,有额定的理论运行参数,同时传感器实时监测到一套运行参数,两种途径得到的数据均有误差,则可以用数据融合算法得到更为满意更为可靠的数据源。
常用的数据融合算法有贝叶斯估值算法、递归加权最小平方法、卡尔曼滤波、小波变换的分布式滤波算法、马尔科夫随机场、最大似然法、聚集分析、表决逻辑、信息熵等算法。
慧都大数据分析平台为您提供从数据对接,数据准备,数据建模,可视化分析的端到端解决方案,聚焦制造业,为制造企业提供端到端的工业大数据分析平台,洞察数据的应用价值,让决策更智能。
欢迎拨打慧都热线023-68661681或咨询,我们将帮您转接大数据专业团队,为您免费定制分析方案!