SPSS + Spark-----为您的数据挖掘预测分析加速-控件新闻-慧都网

SPSS + Spark-----为您的数据挖掘预测分析加速

原创|行业资讯|编辑：陈俊吉|2016-07-08 11:16:26.000|阅读 1236 次

概述：IBM SPSS Modeler（以下简称 Modeler）是一款专业成熟的数据挖掘分析软件，其采用数据流的方式来展示数据挖掘的操作过程，并结合 CRISP-DM 工业标准打造了一个支持众多数据挖掘操作的应用平台。

与简介

IBM SPSS Modeler（以下简称 Modeler）是一款专业成熟的数据挖掘分析软件，其采用数据流的方式来展示数据挖掘的操作过程，并结合 CRISP-DM 工业标准打造了一个支持众多数据挖掘操作的应用平台。

为了顺应 IBM 的大数据战略方向，迎合大数据处理和分析日益增强的市场需求，Modeler 从15.0版本开始，整合了最新的大数据处理引擎 IBM SPSS Analytic Server（以下简称为 Analytic Server）1.0 版本，从而将 IBM 的数据挖掘能力扩展到大数据领域，实现了在分布式文件系统上来执行大数据分析。它将 IBM SPSS 现有的商业分析技术与大数据技术相结合，使得用户能够使用复杂的分析算法以高可伸缩的方式来解决基于大数据的分析问题。

最新版本于2015-9-30正式发布

2015-9-30,IBM 数据挖掘平台SPSS Modeler V17.1版本和IBM SPSS Analytic Server 2.1正式发布，他们的协同工作，为客户带来两大亮点：

增加能够在Analytic Server上运行的分布式算法，以提高处理能力。
与Apache Spark的集成应用，在处理速度带来2.5倍及以上的提升，通过引入Spark MLlib算法，也丰富了Modeler原有的算法。

下面针对这两大亮点，分别做具体介绍。

亮点1：新增分布式算法

在建模面板上，增加了相应的算法，这些算法支持分布式运算，即可以运行在Spark和传统的Hadoop之下，如果用户安装了Spark，会利用Spark机制进行优化，如果没有安装Spark, 跟之前通过hadoop的方法一致。这一亮点大大扩展了算法能力，提高处理性能。

最新版本里面，新增的算法节点包括有：

GLE 节点

特点：

新节点类似于现有 GenLin 和 GLMM 节点；
通过连接到 IBM SPSS Analytic Server 实现分布式计算，以提高处理能力；
GLE 模型将识别通过指定的关联函数与因子及协变量线性相关的因变量,而且，该模型还允许因变量为非正态分布；
它涵盖了广泛使用的统计模型，例如用于正态分布响应的线性回归、用于二进制数据的 Logistic 模型、用于计数数据的对数线性模型等等。

适用范围：

目标可以是二元、分类或数值；

Linear-AS 节点

特点：

新节点类似于现有线性节点，线性回归是一种常见的统计方法，用于根据数字输入字段的值对记录进行分类。线性回归拟合将预测输出值与实际输出值之间的差异最小化的直线或平面；
通过连接到 IBM SPSS Analytic Server 实现分布式计算，以提高处理能力；
生成数据挖掘模型标准格式PMML。

适用范围：

目标必须是数值型；

LSVM 节点

具体实现步骤如下：

特点：

新节点类似于现有 SVM 节点，但其是线性的，更善于处理大量记录；
通过连接到 IBM SPSS Analytic Server 实现分布式计算，以提高处理能力；

适用范围：

LSVM 特别适用于大型数据集，即具有大量预测变量字段的数据集。
目标可以是二元、分类或数值；
生成数据挖掘模型标准格式PMML。

Random Trees节点

特点：

新节点类似于现有 C&R树(Classification and Regression Tree)节点，它可以构建包含多个决策树的整体模型；
通过连接到 IBM SPSS Analytic Server 实现分布式计算，以提高处理能力；
准确度相对较高；
生成数据挖掘模型标准格式PMML。

适用范围：

目标可以是二元、分类或数值；
对于不平衡的分类数据集来说，它可以平衡误差(目标是二元的)；
处理大量的输入变量。

Tree-AS 节点

特点：

新节点类似于现有 CHAID 节点，在此节点中，您可以选择使用 CHAID 或 Exhaustive CHAID 模型来构建决策树；
通过连接到 IBM SPSS Analytic Server 实现分布式计算，以提高处理能力；
生成数据挖掘模型标准格式PMML；
可生成SQL。

适用范围：

目标可以是二元、分类或数值；

亮点2：与Apache Spark的集成

Spark最大的优势在于速度，特别适合需要多次迭代的算法，因此在最新版本里面，提供了自定义对话框构建程序的 Python Spark 支持。

自定义对话框构建程序之前仅可与 R 配合使用，现在它还支持 Python for Spark，后者提供对Apache Spark 及其机器学习库 (MLlib) 的访问。例如，分析人员可以使用自定义对话框构建程序来创建使用 MLlib中的算法的建模节点，然后与其他人员共享该节点。

SPSS Modeler 17.1版本中，可通过Python语言引入以下所有的Spark MLlib算法：

集成举例：SPSS + Spark + MLlib

以下流程图实现了以下了SPSS Modeler、Spark与MLlib的集成

1.通过连接分布式文件系统，连接训练数据集；

2.使用自定义对话框构建程序，通过Python实现导入MLlib算法Collaborative Filtering；

3.生成Collaborative Filtering模型；

4. 通过Analytic Server连接分布式文件系统，连接测试数据集；

5. 测试数据集直接连接生成的Collaborative Filtering模型，应用该模型规则进行预测分析；

6.将预测结果返回到分布式文件系统中。

集成优势：整个数据分析处理过程都是在Spark环境下运行，充分利用内存运算提高性能。

试用版下载地址:

详情请咨询！

客服热线：023-66090381

标签：大数据 BI 数据分析

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn

上一篇：BCGSoft Demo示例展示：对接窗口示例（一）下一篇：值得你使用的75个开源移动工具（下）

彩票走势图

在线采购

中文文档库

试用/Demo下载

开发社群