Tajo官方最新版免费下载,中文资源,在线文档,视频教程,技术支持,Tajo正版购买-慧都网

下载：65 收藏：0

查看价格

Tajo (产品编号：13796)

Apache Tajo是Hadoop上的一个大数据仓库系统。

标签：大数据 BI 数据可视化数据分析 Hadoop

开发商： Apache

当前版本： v0.11.1

产品类型：开源

产品功能：大数据分析工具

平台语言：

开源水平：不提供源码

本产品的分类与介绍仅供参考，具体以商家网站介绍为准，如有疑问请来电 023-68661681 咨询。

Apache Tajo是一个健壮的 Hadoop大数据关系型和分布式数据仓库系统。Tajo是常用于低延迟、可伸缩的点对点查询、在线聚合以及储存在HDFS 等数据源的大数据集的提取-转换-装载。通过对SQL标准的支持，利用先进的数据库技术，Tajo可以对分布式执行和各种查询评估策略的数据流进行直接控制并提供优化的机会

* 关于本产品的分类与介绍仅供参考，精准产品资料以官网介绍为准，如需购买请先行测试。

特性：

快速高效

完全的分布式SQL查询处理引擎。
高级查询优化，如基于成本和渐进式的查询优化。
合理的数据集上进行交互式分析。

可伸缩

容错性与长时间运行查询的动态调度。
比主内存更大的数据集核外算法。

可兼容

遵从ANSI / ISO SQL标准。
支持Hive MetaStore 的访问。
支持JDBC驱动。
支持各种格式文件。如CSV、 JSON、 RCFile、SequenceFile、 ORC以及 Parquet。

简单

用户定义函数
交互性的外壳
方便的备份/恢复功能
异步/同步Java API

体系架构：

Tajo采用了Master-Worker架构，Master-Worker-Client之间的RPC通信是使用Protocol buffer + Netty来实现的，具体如下：

1） TajoMaster：为客户端提供查询服务和管理各个QueryMaster（也可以说是Tajo Worker），解析Query并协调QueryMaster，目前还内置了catalog服务器。大致可以分为四个组件：Cluster Manager、Catalog、Global Query Engine以及History Manager。

Catalog 的工作是管理诸如tables、schemas、partitions，functions，indices及statistics等各种metadata。这些元数据信息一般都是Global Query Engine来操作，为了低延迟考虑跟hive一样都是存在RDBMS（目前支持Derby和MySQL），默认是保存在内置的Derby数据库中。后面可能会考虑使用hive的HCatalog来完成这块功能。
Cluster Manager 主要是管理集群中各个节点之间的通信信息及资源（内存/CPU/Disk）信息，每个节点定期发送资源信息，交给Master来管理将用于查询计划的分配等，这一块是依赖Yarn的ResourceManager来管理。
Global Query Engine 当一条query提交到master，GQE就会依据表的metadata以及集群资源信息（依赖于Catalog和Cluster Manager两个模块提供的信息）生成一个全局的查询计划。对于一个分布式执行环境，全局的查询计划将会被分片，划分成各个查询单元分配给各个worker去执行，在这些worker执行过程中GQE会监控每一个查询单元的运行状况并实时去优化和容错。在这一块目前的语法解析是用ANTLR 4生成AST（抽象语法树），这个以后可能会使用Tenzing的SQL Query Engine。
History Manager 收集各个query job状态信息包括查询语句，划分的查询单元等，通过web ui（默认端口号：26080）可以查询。

2） QueryMaster：负责一个query的解析、优化与执行，它参与多个task runner worker协同工作，完成一个query的计算。每个Query Master可以生成多个TaskRunner来执行master的查询单元，这些task runner都是由yarn中的NodeManager来管理。

3）Tajo Worker 每个节点就是一个worker角色，每个worker包含存储模块管理和一个Local模式的Query Engine，这个local模式的Query Engine就是来接受master分配的查询单元。每个查询单元包含一个逻辑查询计划和一个分片（输入数据关系的信息块），在执行过程中worker定期向master汇报查询进度和资源信息，master可以很灵活地面对非异常的错误。

如上图所示，Tajo采用传统数据库技术开发了SQL解析器，包括SQL解析、生成查询计划、优化查询计划、执行查询技术等。但与传统的数据库技术不同，Tajo最终执行查询技术时借鉴了MapReduce的设计思想，它将查询计划转化为一系列任务，这样，执行查询计划实际上就是执行这些任务，而每一个任务就是一个计算单位，同时Map Task和Reduce Task一样。

更新时间:2017-06-05 11:14:18.000 | 录入时间:2016-02-04 17:12:45.000 | 责任编辑:陈俊吉

慧都公开课 更多