彩票走势图

搜寻外星文明,IBM Spark技术助力SETI

转帖|行业资讯|编辑:陈俊吉|2016-04-29 10:00:26.000|阅读 286 次

概述:正如IBM对Spark大力投入的承诺,IBM目前正将Spark作为核心组件应用到IBM的大数据分析平台中,并在公司内部各种项目中大力的推广Spark。目前,IBM在云端的自助分析旗舰产品Watson Analytics,云端数据加工服务DataWorks都采用了Spark技术。而IBM目前也正使用Spark技术协助NASA下属的非盈利科研机构SETI (致力于研究人类起源和外星文明的科研机构)来搜寻外星文明。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>


过去数十年,SETI为了收集外星生命存在的迹象,构建了“艾伦望远镜阵列”(Allen Telescope Array,www.seti.org/ata)。这项工程由微软联合创始人保罗艾伦资助,目标是通过构建一个小型望远镜阵列,在降低成本的同时,达到巨型天文望远镜的探测效果。艾伦望远镜阵列将成为“世界上用于搜寻银河系中其他文明的最有力的工具”-百度百科


艾伦望远镜阵列每小时产生4.5TB的数据流量,而且探测数据中夹杂大量由自然界和人类产生的干扰数据。如何处理如此巨大的数据流量,并通过机器学习算法排除其中的干扰数据,找出真正令人感兴趣的“外太空信号“,是SETI需要解决的技术难题。当SETI找到IBM专家时,IBM的专家们想到了具有海量数据分析、高性能内存计算、深度学习算法的Spark技术,他们使用了IBM Bluemix上的Spark分析服务构建了一套分析应用,帮助SETI解决上述技术难题。

数据格式

艾伦望远镜阵列产生的数据由两部份组成:

1)结构化数据SignalDB

SignalDB中存储了过去十几年间1.68亿条信号数据的基本描述,例如捕捉信号数据的太空方位,信号频率的多普勒漂移,信号类型(载波还是脉冲)等。每个捕捉数据用一条上述记录进行描述。以下是SignalDB中一条样例记录:

大数据学习

2)非结构化二进制数据CompAmps

捕捉的具体信号数据CompAmps用二进制存放,在进行分析之前,需要通过快速傅立叶变换(FFT)技术,将其转化为可视化的波形。

分析架构

大数据学习

整套分析架构采用IBM Bluemix上的Apache Spark服务构建,由艾伦望远镜阵列产生的数据被上传到Bluemix上的Object Store存储服务中,然后通过Spark进行分析。

大数据学习

分析应用采用IPython notebooks开发(IPYthon notebook是IBM Spark服务提供的交互式分析工具),分析服务包括

  • 长时间重复信号分析 (Longtime-frame repeating signals),采用的分析技术是DataFrame/SparkSQL,通过与历史数据中来自同一个TargetID的信号进行对比分析得到;
  • 奇异点和异常信号分析 (Anomaliesand Outliers),采用SparkML技术,使用无监督的机器学习聚类算法Clustering,将相似信号聚类,并找出数量最小的奇异信号类别;
  • 复杂宽带信号监测(Complex/BroadbandSignal Detection),使用KLT,滑动时间窗口和其它增强傅立叶变换技术(上述是图像视频识别的几种技术,用于图像特征提取,比对等。有兴趣可在维基百科上近一步了解);
  • 信号分类和异常监测(SignalClassifier and Anomaly Detection),使用受监督的机器学习分类算法,对图像噪音过滤,并找出异常信号。

基本分析过程

通过IBM Spark服务的IPythonnotebook可视化开发界面,可以将信号数据进行加工绘图,形成可视化的结果(项目中成为瀑布式绘图Waterfall Plot),下面就是对一个信号进行傅立叶变化绘图后的结果:

大数据学习

检测到的信号通常会具有“多普勒漂移”现象,即随着时间变化其频率(强度)会发生变化。想象一下消防车开过时声音由远到近再到远的过程,就是多普勒漂移的例子。现在医院常用的彩超也称多普勒成像,就是利用了这个原理。信号的多普勒漂移通常可能由地球的自转,公转和信号源本身的移动(例如飞机,卫星的移动)产生。

大数据学习

在这个项目中,为了检测来自外太空的异常信号,需要要将来自人类物体(例如飞机、卫星甚至微波炉)或自然界的噪音(例如太阳辐射、地震)过滤掉。而为了判断 不同时间窗口收集到的信号哪些是由同一个信号源(例如飞机、卫星)产生的,则需要首先消除信号中不停变化的多普勒漂移产生的偏移量。由于涉及相当复杂的计 算和海量数据,这也是本项目最大的技术难题。

IBM 团队首先建立了一套复杂的算法,可以根据不同时间、地点计算出地球自转、公转产生的多普勒漂移,然后利用Spark用算法对信号进行多普勒漂移的消减。消减之后的信号就可以比较容易的利用SparkML机器学习算法的聚类(Clustering)和贝叶斯算法进行分类,判断出哪些信号是飞机、卫星、电器、地震等产生的,剩下的哪些无法被归到正常类别的信号,就是需要深入调查的异常信号了。

大数据学习

总结

SETI 项目中集结了来自 IBM Almaden 实验室、IBM Johannesburg 实验室和来自NASA,Penn State大学的世界级数据科学家和天文学家。他们利用IBM Bluemix上的Apache Spark服务,成功的构建了对艾伦望远镜阵列海量数据的计算和分析模型,也验证了IBM Apach Spark服务在海量处理方面的稳定性、扩展性。利用IBM Apache Spark服务的IPython notebook,专家们可以快速的进行交互式分析和数据的可视化。通过项目,IBM也充分展示了通过Spark技术解决复杂问题的实施能力。

好吧,到这肯定有同学会问,哪么项目找到外星人了吗?实际上,项目确实发现了一个位于磁偏角85的信号,而且确定与太阳辐射无关。科学家们正在对信号进行近一步分析,是不是外星人信号还未可知,但是这确实是第一次科学家们从海量数据中排除干扰,发现了可疑的信号。

大数据学习

最后,引用Dr. Seth Shostak,(天文学家, SETI研究中心主管)的话结束本文。

“通过Bluemix上的Spark服务,我们能够和IBM一起构建出令人信服的新方法,通过分析艾伦望远镜阵列的信号数据,来探索外星文明存在的证据。这真是令人激动的合作。”

(“With Spark as a Service on Bluemix, we’ll be able to work with IBMto develop promising new ways to analyze signal data as we hunt for evidence ofintelligence elsewhere in the cosmos. This is an exciting example of synergy inthe service of science.” )

本文转载自


标签:大数据BI数据分析

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn


为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
相关产品
Cognos Analytics

工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业

SPSS Modeler

工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效

Cognos TM1

Cognos TM1 是用于分析财务、运营、客户和职员数据的商业绩效管理软件

SPSS Analytic Server

从大数据中有效产生预测和建议

Cognos Controller

一款财务合并软件,支持完整的结算、合并和报表流程

title
title
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP