彩票走势图

BigInsights金刚钻之首:BigSQL - SQL on Hadoop

转帖|行业资讯|编辑:陈俊吉|2016-07-12 10:14:35.000|阅读 503 次

概述:从NoSQL到NewSQL,新技术的发展极大拓展了数据查询的应用场景:支持半结构化数据(JOSON)、非结构化数据的高效率读写和查询等。而在此过程中经典的SQL技术仍旧在发挥着无可替代的作用,在Hadoop的世界中也必将占据一席之地。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接:

从NoSQL说起

从NoSQL到NewSQL,新技术的发展极大拓展了数据查询的应用场景:支持半结构化数据(JOSON)、非结构化数据的高效率读写和查询等。而在此过程中经典的SQL技术仍旧在发挥着无可替代的作用,在Hadoop的世界中也必将占据一席之地。

作为传统的RMDBS核心厂商之一,IBM也一直努力将SQL带入的世界,这就是BigSQL。最初版本中BigSQL是做为SQL到MR的转换引擎出现的,可以把复杂的SQL语句转换成MR作业运行。这种方式还只是适合对大量数据进行批量处理,并不能满足对数据的随需查询和秒级的查询响应时间要求。

从BigSQL3.0 开始, IBM结合自己在数据库领域长期的技术积累,把MPP相关技术带入的世界,从而为SQL on Hadoop带来真正的提升:BigSQL根据数据在HDFS中的分布,将查询任务下压至不同的Worker节点;在此过程中,引入众多成熟的SQL优化技术,包括SQL语句重写、查询谓词下压、基于统计信息和成本估计的优化策略等,解决执行路径优化等难题,确保数据查询的性能。仅在执行路径优化方面应用到的技术就包括:

数据处理顺序的优化技术:

- 根据统计信息决定查询谓词的执行顺序

- 根据数据分布情况优化关联查询次序

- 优化数据聚合策略(如每个节点先部分聚合后再汇总等)

数据表关联的优化技术:

- 表嵌套关联

- 排序合并关联

- 哈希关联

数据位置相关的优化技术:

- 并行运算

- 广播关联数据表

- 联邦查询中操作下推和函数转换等

BigSQL执行引擎根据实际情况综合考虑最终的执行路径。下图可以感受下BigSQL执行过程中应用到的多种SQL优化技术:

biginsights

除了引入MPP架构来优化上的SQL引擎外,BigSQL还有众多闪光的亮点:

全面支持SQL语法和开放的数据源支持:

BigSQL全面支持SQL 2011标准,提供如表关联、嵌套语句、函数、表操作表达式、group by, union等SQL操作,还提供对存储过程、自定义函数的支持,可以无缝衔接传统的SQL查询应用,如BI系统等。下图展示了BigSQL的部分SQL能力:

biginsights
biginsights

BigSQL可以支持多种数据源,包括HDFS、HBASE、HIVE、外部数据源等,对数据源和数据格式的支持是完全开放的。

完善的SQL管理

BigSQL完美的集成了DSM,其Web图形化界面提供从监视、开发、到管理的各项服务,可以完成监视语句执行状态、开发查询应用、开发存储过程和管理查询服务等各项任务。如下图中的SQL编辑器支持在线执行SQL语句并查看结果。

biginsights

数据联邦查询

除了可以支持查询内部的各种数据源外,BigSQL 还支持与其他企业数据源进行联邦,包括:DB2/Oracle/IBM PDA/IBM PDOA/TeraData/JDBC等,联邦让跨系统的数据访问在一个SQL中完成,而不需要复杂的ETL过程和数据传输等待。

 联邦的含义不仅仅是指打通了数据访问通道,还包括查询路径优化方面的考虑。比如,根据数据的分布和数据源的支持情况:将语句下压至联邦数据源执行;部分在联邦数据源部分在BigSQL执行;或者全部由BigSQL执行。

数据量、联邦数据源处理能力、联邦数据源的处理速度、返回数据比例、网络带宽等这些都在考虑之列。比如,如果数据源仅支持正切函数TAN(x),而不支持余切函数COT(X),BigSQL将会SQL中的COT(x)转换成等价的正切函数表达式1/TAN(x)。

通过联邦,BigSQL可以让本来不具备SQL数据访问能力的数据源变成兼容SQL数据访问标准的数据源。下图显示了BigSQL联邦支持的数据源:

biginsights

内置函数丰富,包含机器学习算法

BigSQL除了可以提供常规的SQL函数外,还提供了众多机器学习算法的实现,包括:K-means聚类算法、朴素贝叶斯算法、关联规则算法、序列模式挖掘算法、线性回归算法等。这让熟悉SQL语法和数据的DBA,马上提升数据分析技能!!

如下图显示通过简单的一条SQL语句就可以完成对人口收入调查数据集(CensusIncome)的聚类建模分析:

biginsights

再通过一条SQL即可显示聚类分析结果:

biginsights

安全特性

安全性是企业级产品必须要考虑的,BigSQL中的用户鉴权通过外部框架完成,如LDAP,而用户连接之后的内部鉴权则由BigSQL完成。BigSQL可以根据用户的授权、属主和角色判定用户的权限。如同数据库一样,BigSQL可以通过GRANT语句给用户授权,可以做到行、列级别的权限控制。

另外,BigSQL还实现数据访问的审计功能,对什么人从什么时间什么地点访问了什么数据进行了完整的审计。

最后,除了文章中列出的这些特点,BigSQL具备更多企业级产品的特性,有待您来一起探索。

详情请咨询!

客服热线:023-66090381


标签:大数据BI数据分析Hadoop

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn


为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP