Operations Console:IBM InfoSphere DataStage 实时监控和统一运维平台
功能介绍 提供IBM大数据产品线售前技术支持,发布相关的技术资料,产品使用、开发技巧等信息。
是一个基于 Web 的监视工具。它为 InfoSphere DataStage 和 QualityStage 客户提供了 IBM InfoSphere Information Server 引擎操作环境的全面视图,监视当前和过去的作业活动、服务器资源使用情况和服务器引擎流程的健康状态。如图所示:
一、利用Operations Console的强大功能,能让我们更好地均衡系统工作负载、对引擎问题进行故障诊断以及更有效地调度作业运行
-
同时监控多个业务场景中的引擎层
-
创建ETL生产环境的360度视图,一站式提供所有作业运行状态、系统资源使用情况和 引擎层状态信息,可快速确定集成环境的整体状态并在发生问题时收到警报
-
跟踪并分析历史运行记录,针对特定周期也提供相同的环境整体视图。此历史视图使用户能够在没有主动监控环境的情况下确定所发生的冲突和性能问题
-
提供工作负载管理功能(Workload Management),管理任务队列,设定作业运行的优先级和并发度,控制作业所使用的CPU或内存等系统资源
二、Operations Console的使用场景
1.对失败的作业运行进行故障诊断
作业可能因各种原因而失败。如果没有环境的引擎级视图,那么确定这些原因可能十分困难。Operations Console 在作业运行失败时立即发出警报,以便我们可以在问题发生后立即纠正问题。作业运行失败后,我们也可以快速地查看故障前、故障期间以及故障后发生的所有 InfoSphere Information Server 引擎活动的列表。
通过Operations Console 所提示的信息向下钻取,可发现失败的作业依赖于其他由于运行时间异常而未能完成的作业之间的内在联系。这样,我们可以查看当作业遇到这些问题时收集的所有其他作业运行和系统资源使用情况信息。通过使用这些信息进行问题定位,以便在下次调度作业运行时不会发生该问题。
2.提高作业运行性能
如果没有整个系统的视图,那么确定导致作业性能差的原因将会非常困难。Operations Console 不仅能提供作业运行调度和作业设计的信息,还能提供作业运行时的系统资源使用情况。因此我们可以确定什么时候系统资源开销过大?或者什么时候作业运行所用的系统资源量超出预估。
此外,Operations Console 还能够轻松地将当前运行的作业与历史运行的作业进行比较,以便确定导致性能变差或作业变更的潜在原因。
3.监控DataStage服务器引擎状态
当InfoSphere DataStage 环境中发生问题时,Operations Console 可通过仪表板来显示引擎层的后台服务进程状况以及系统资源不足的预警。
4.合理设定DataStage服务器上资源使用的系统策略
Operations Console 支持为以下系统策略设置阈值:
-
作业并发数
指定系统允许并发运行的最大作业数。
-
CPU 使用率
指定系统所允许的最大 CPU 使用率。如果当前 CPU 使用率超出该值,将不允许启动新的作业
-
内存使用量
指定系统所允许的最大内存使用率。如果当前内存使用率超出该值,将不允许启动新的作业。
-
作业启动数
指定规定时间内(以秒为单位)允许启动的最大作业数
三、Operations Console 架构和工作原理
Operations Console的整体架构由以下组件构成:
-
Operations 数据库,用来存放作业的运行信息以及系统的资源信息。
-
在 DataStage 服务器上的进程 EngMonApp,它用来获得作业的运行事件信息并写入 Operations 数据库。
-
在 DataStage 服务器上的进程 ResMonApp,它用来获得系统资源的使用信息并写入 Operations 数据库。
-
在 DataStage 服务器上的进程 ResTrackApp,用来在本地的节点或者是远程节点上获得系统资源的使用信息,并且发送给 ResMonApp。
-
在 DataStage 服务器上的进程 ODBQueryAPP,把在 Operations 数据库中的作业的运行信息和系统资源使用信息提供给 Operations Console。
-
Operations Console Web GUI, 基于浏览器的应用。它用来展示从 Operations 数据库获得的作业运行信息和系统资源使用信息,以及从元数据存储仓库中获得的作业的设计信息
Operations Console 架构图
Operations Console的工作流程主要包括加载和查询:
-
加载操作
当启用了 Operations Console 时,系统将采集和整合作业执行详细信息(参数、状态、统计信息和日志等)和系统资源利用率信息(CPU、内存和磁盘等),并以较短的间隔定期将它们插入到Operations Database 中。
-
查询操作
当使用基于 Web 的客户端监视作业执行或查看作业运行历史时,将提交针对 Operations Database 的查询请求,信息查询会使用服务层中的服务检索,返回符合要求的实时结果至前端动态展现。
四、如何配置Operations Console
1.创建 Operations 数据库模式
建议在初始化安装DataStage的时候,使用DB2自动化创建Operations数据库,否则需要按照以下步骤手工创建:
-
手工创建DB2数据库(也可以是Oracle或SQL Server)
-
将创建完成的数据库注册为Operations数据库
a.在DataStage服务器上,切换到目录/opt/IBM/InformationServer/ASBServer/bin
b.将/opt/IBM/InformationServer/Server/DSODB目录下的DSODBrepos_registration.properties模板文件复制到当前目录
c.编辑DSODBrepos_registration.properties文件,指定在步骤a中创建的数据库配置信息
d.运行以下命令注册为Operations数据库
RepositoryAdmin.sh -registerRepository -propertyFile DSODBrepos_registration.properties
e.检查注册是否成功
RepositoryAdmin.sh -listRepositories
将创建完成的数据库注册为Operations数据库
-
生成用于Operations数据库模式的脚本
a.在DataStage服务器上,切换到目录/opt/IBM/InformationServer/ASBServer/bin
b.运行RepositoryAdmin工具以生成所需的脚本(name是数据库名,location是生成脚本的目录):
RepositoryAdmin.sh -saveSQLScripts -reposName name -scriptLocation location
-
运行以下脚本,为DB2数据库创建Operations数据库模式:
db2 -l dsodb_setup_db.log -stf dsodb_db_creation.sql
db2 -l dsodb_setup_tablespace.log -stf dsodb_tablespace_creation.sql
db2 -l dsodb_setup_table.log -stf dsodb_table_creation.sql
2.配置Operations 数据库将要捕获的监控数据
-
所有作业的数据监控选项都在DSODBConfig.cfg 配置文件中进行设置,该文件位于/opt/IBM/InformationServer/Server/DSODB/目录下。
-
必须设置DSODBON=1,以启用监控数据捕获。其他参数可根据实际需求来定制。
3.检查监控系统的配置
运行DSAppWatcher.sh脚本来检查监控系统的配置是否正确。
4.启动AppWatcher进程,开始收集监控数据
DSAppWatcher.sh –start
5.配置工作负载管理(Workload Management)
-
配置/opt/IBM/InformationServer/Server/DSODB/目录下的DSODBConfig.cfg文件,设置WLMON=1
-
重新启动DataStage引擎
uv -admin -stop
uv -admin -start
6.启动Operations Console
访问以下链接,登陆 Operations Console:
//domain:port/ibm/iis/ds/console/login.html 或
//domain:port/ibm/iis/ds/console/login.html
-
domain为DataStage服务器的主机名或IP
-
port为http或https端口号
详情请咨询!
客服热线:023-66090381