彩票走势图

如何在SQL Server 2019大数据集群上自动化机器学习?

翻译|使用教程|编辑:龚雪|2019-05-13 17:52:28.537|阅读 542 次

概述:Microsoft SQL Server 是一款非常强大的关系型数据库管理系统。日前,Microsoft公司公布最新版SQL Server 2019(预览版)!此版本包含来自 CTP 历史版本的改进功能,可修复 bug、增强安全性和优化性能。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

Microsoft SQL Server 2019 抢先体验 !

Microsoft SQL Server 是一款非常强大的关系型数据库管理系统。日前,Microsoft公司公布最新版SQL Server 2019(预览版)!此版本包含来自 CTP 历史版本的改进功能,可修复 bug、增强安全性和优化性能。

SQL Server 2019 大数据集群是其中一项重大改进。SQL Server 2019 大数据集群使您可以使用您选择的软件来适应大数据的机器学习模型,并使用这些模型来执行评分。事实上,流行的开源大数据框架Apache Spark TM现已内置!Apache Spark TM包含MLlib机器学习库,开源社区开发了大量附加软件包,这些软件包集成并扩展了Apache Spark TM和MLlib。



新版SQL Server 2019(预览版)免费下载


自动化机器学习


手动选择和调整机器学习模型需要熟悉各种模型类型,并且可能费力且耗时。最近推出了用于自动化该过程的软件,使新手和专家数据科学家和ML工程师免除了手动模型选择和调整带来的大部分负担。


H2O的开源AutoML API

H2O为大数据提供了流行的开源软件,用于数据科学和机器学习,包括Apache Spark TM集成。它提供了两个开源的python AutoML类:h2o.automl.H2OAutoML和pysparkling.ml.H2OAutoML。两个API都使用相同的底层算法实现,但后者遵循Apache Spark的MLlib库的约定,并允许您构建包含MLlib变换器的机器学习管道。我们将在这篇文章中关注后一种API。

H2OAutoML可以自动将训练数据分成训练,验证和排行榜框架。h2o.automl.H2OAutoML API还允许手动指定这些帧,这在任务是使用历史数据训练模型预测未来时非常有用。

H2OAutoML生成的模型可以持久保存到磁盘,用于Apache Spark TM集群中的预测/评分,在单个节点上运行的Apache Spark TM中以本地模式使用,或者在具有必要库的Java虚拟机(JVM)中使用在CLASSPATH上。这些选项将允许在Apache Spark TM内的SQL Server 2019大数据集群中,在Transact-SQL存储过程中进行批量和实时评分,或部署为应用程序。

我们现在可以在连接到SQL Server 2019大数据集群的Azure Data Studio中运行Apache Spark TM notebook示例。【点击查看notebook完整示例

在这里,您将定义一个建模管道,将其拟合到训练数据上,并使用它来生成对测试数据的预测。在我们的示例中,我们设置maxModels = 2,这导致两个基于树的模型和两个(相同的)堆叠集合模型。这足以用于演示目的,但在实践中,您应该允许H2OAutoML探索更多模型以实现最佳预测指标。如果您只是省略maxModels参数,那么H2OAutoML将探索最大maxRuntimeSecs的模型,默认为3600秒(1小时)。


在SQL Server 2019大数据集群中扩展和监控大数据


使用SQL Server 2019,您不仅可以自动选择和调整机器学习模型,还可以轻松扩展和监控大数据集群。


扩展到大数据

使用SQL Server 2019大数据集群,可以利用大量计算和内存资源快速高效地大规模处理数据。要扩展到大数据,您可以配置以下参数:(设置这些参数的详细信息包含在示例notebook中)

  • 群集中节点的数量和大小
  • Apache Spark TM pod 的数量
  • YARN调度程序内存和内核
  • Apache Spark TM驱动程序和Executor内存,内核以及每个pod的执行程序数
  • Livy超时


监控和诊断

SQL Server 2019大数据集群包括用于监视和诊断的强大工具。示例笔记本包含有关访问以下图形用户界面的说明,以便在Apache Spark TM中监视,控制和排除运行:


YARN UI
  • 显示Apache Spark TM群集中的可用和已用内存和虚拟核心
  • 列出运行和完成的Apache Spark TM应用程序
  • 提供指向Apache Spark TM UI的链接,用于运行应用程序,Spark 链接指向已完成的应用程序
  • 允许终止正在运行的应用程序

Apache Spark TM UI
  • 提供有关运行Apache Spark TM应用程序的详细信息

Apache Spark TM历史
  • 提供已完成的Apache Spark TM应用程序的详细信息
  • 包括针对Apache Spark TM应用程序的新可用Microsoft诊断程序

H2O Flow UI
  • 监控H2O工作进度和发动机状态


在本文中,我们已经了解到SQL Server在2019年预览版中获得了强大的新功能,并学习了如何使用内置的Apache Spark TM在大数据上运行机器学习工作负载,并能够利用额外的包您可以选择H2O的自动化机器学习软件。同时我们浏览了一个示例Apache Spark TM笔记本,用于自动化机器学习,可以在Azure Data Studio中针对SQL Server 2019大数据集群运行。


想要获取更多Microsoft SQL Server 2019教程资源,可在评论区留言,或点击查看资源列表



标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn


为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP