彩票走势图

SPSS与Streams的集成实现实时预测

原创|行业资讯|编辑:陈俊吉|2016-07-28 09:44:18.000|阅读 283 次

概述:SPSS Modeler 是一个数据挖掘工作台,提供了一个可了解数据并生成预测模型的最先进的环境。Streams 提供了一个可伸缩的高性能环境,对不断变化的数据进行实时分析,在实时处理需要高级分析时,使用Streams和SPSS集成,实现实时评分预测。实时应用预测分析的用例的示例包括网络安全、银行和信用卡欺诈检测、预测性维护,以及实时营销产品。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接:

spss

是一个数据挖掘工作台,提供了一个可了解数据并生成预测模型的最先进的环境。Streams 提供了一个可伸缩的高性能环境,对不断变化的数据进行实时分析,这些数据中包括传统结构的数据和半结构化到非结构化数据类型。

在实时处理需要高级分析时,使用Streams和SPSS集成,实现实时评分预测。实时应用预测分析的用例的示例包括网络安全、银行和信用卡欺诈检测、预测性维护,以及实时营销产品。

Streams + SPSS Analytics Toolkit 的特点

  • 利用Streams实现高吞吐量、低延迟的评分
  • 利用SPSS Modeler开发和建立评分模型
  • 通过SPSSScoring Operator将模型部署到Streams
  • 模型更新而无需暂停Streams
  • 通过SPSS Collaboration and Deployment Services管理模型的生命周期

SPSS Analytics Toolkit for Streams

SPSSScoring operator

SPSSScoring operator实现在Streams应用中使用预定义的SPSS的预测模型进行评分预测,它假设预测模型已经在SPSS Moduler定义好并通过SPSS Solution Publisher导出这三个文件:

  • model.pim
  • model.par
  • model.xml

SPSSScoring 代码例子

stream<DataSchemaPlus> scorer = com.ibm.spss.streams.analytics::SPSSScoring(data)
{
  param
    pimfile: getThisToolkitDir() +"/etc/PimParXml/model.pim";
    parfile: getThisToolkitDir() +"/etc/PimParXml/model.par";
    xmlfile: getThisToolkitDir() +"/etc/PimParXml/model.xml";
    modelFields: "sex","income";
    streamAttributes: s_sex, baseSalary+bonusSalary;

  output
    scorer:
    income = fromModel("income"),
    predLabel = fromModel("$C-beer_beans_pizza"),
    confidence = fromModel("$CC-beer_beans_pizza");
}

 

SPSSPublish operator

SPSSPublish operator 自动“发布&rdquo;的一个模型文件的评分分支并总结所生成的文件,以便下游的Operator可以通过“分布”操作所创建或更新的PIM、PAR和XML文件,刷新他们的评分标准实施。通常情况下,SPSSPublish operator配合上游的DirectoryScan 或 SPSSRepository operator,及下游的SPSSScoring operator,即:

DirecoryScan/SPSSRepository -> SPSSPublish -> SPSSScoring

其中DirectoryScan 或 SPSSRepository operator检测到有新的模型文件可用,就将新模型的文件名发生个SPSSPublish operator。SPSSPublish的下游通常是SPSSSoring。当SPSSPublish获取到新模型,它就会生成SPSSSoring所需的PIM、PAR和XML文件,然后发生通知给SPSSSoring,通知也新的模型可用了。SPSSScoring收到通知后会刷新内部模型。

SPSSPublish代码例子:

 stream<rstring strFilePath> strFile = DirectoryScan(){
       param
         directory : "/tmp";
         pattern : "newmodel.str";
         ignoreExistingFilesAtStartup : true;
       config placement : host(P1);
     }

    stream<rstring fileName> notifier = com.ibm.spss.streams.analytics::SPSSPublish(strFile){
     param
       sourceFile: "newmodel.str";
       targetPath: "/tmp";
     config placement : host(P1);
  }

    stream<DataSchemaPlus> scorer = com.ibm.spss.streams.analytics::SPSSScoring(data;notifier) {
    param
      pimfile: getThisToolkitDir() +"/etc/PimParXml/model.pim";
      parfile: getThisToolkitDir() +"/etc/PimParXml/model.par";
      xmlfile: getThisToolkitDir() +"/etc/PimParXml/model.xml";
      modelFields: "sex","income";
      streamAttributes: s_sex, baseSalary+bonusSalary;

    output
      scorer:
        income = fromModel("income"),
        predLabel = fromModel("$C-beer_beans_pizza"),
        confidence = fromModel("$CC-beer_beans_pizza");
    config placement : host(P1);
  }

 

SPSSRepository operator

SPSSRepository operator监视部署在SPSS Collaboration and Deployment Services库的对象的变化。当被监控的对象发生变化,相关通知则会发给所有的Listener。收到通知,SPSSRepostory会从Repostory下载该对象的新版本文件并将文件写到目标目录,这步操作成功之后,SPSSRepostory再提交描述文件已更新的事件给下游Operator。

Streams + 的参考架构

根据前面对SPSS Analytics Toolkit的功能描述,Streams + SPSS的参考架构可以由下图表示:

spss

小结

本文通过对SPSS Analytics Toolkit和这些Toolkit与Streams集成参考架构的描述,为读者呈现了如何使用业界最好的数据挖掘工具SPSS和流数据分析平台Streams进行实时评分和预测。

详情请咨询!

客服热线:023-66090381


标签:大数据BI数据可视化数据分析

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn


为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
相关产品
Cognos Analytics

工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业

SPSS Modeler

工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效

IBM BigInsights for Apache Hadoop

经济高效地存储、管理和分析大数据

IBM InfoSphere Streams

高效捕获和分析动态数据的软件平台

Watson Analytics

具备理解,学习和推理能力,实现更智能的人机互动,帮助人们做出更好的决策

title
title
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP