第三届世界互联网大会大数据论坛内容记录
主持人:尊敬的各位专家、各位来宾、各位朋友,女士们、先生们,大家下午好!欢迎大家来到美丽的乌镇,参加第三届世界互联网大会大数据论坛。我是中国科学院办公厅副主任高春东,很荣幸由我担任本次论坛的主持人。
2016-11-17 14:49
主持人:大数据论坛是第三届世界互联网大会“互联网创新”专题的重要组成部分,也是首次由中国科学院主办的世界互联网大会专题活动。本次论坛由中国国家互联网信息办公室和浙江省人民政府指导支持,中国科学院主办,中科学院信息工程研究所承办,数据中心联盟协办。
2016-11-17 14:50
主持人:本次论坛邀请了国内外著名专家、学者和企业家,围绕“大数据的发展与安全”这一主题,从发展展望、大数据安全风险及防控、发展与行业应用三个角度,进行广泛和深入的研讨。相信本次论坛对和产业发展将有一定的促进作用。
2016-11-17 14:51
主持人:出席本次论坛的嘉宾有:图灵奖得主、卡内基梅隆大学雷伊·雷蒂教授;澳大利亚科学院院士、工程院院士、墨尔本大学饶·寇他科里教授;中国工程院院士、中国科学院计算技术研究所倪光南研究员;中国科学院院士、中国科学技术大学常务副校长潘建伟教授;中国工程院院士、中国银联股份有限公司执行副总裁柴洪峰研究员;中国通用技术研究院学术委员会主任黄殿中先生;浙江省委常委王新海先生;中国科学院秘书长邓麦村研究员;另外,还有来自国内外学术界和企业界的嘉宾朋友们。首先,请中国科学院秘书长邓麦村先生致辞。大家欢迎!
2016-11-17 14:52
邓麦村:尊敬的各位专家、各位来宾、各位朋友,女士们、先生们,大家下午好!欢迎大家来到历史悠久、粉墙黛瓦的浙江乌镇,参加第三届世界互联网大会大数据论坛。在这里,请允许我代表本次论坛的主办单位中国科学院,向远道而来的各位嘉宾、各位朋友表示热烈的欢迎!向论坛的指导支持单位中国国家互联网信息办公室以及浙江省人民政府表示衷心的感谢!
2016-11-17 14:53
邓麦村:当前,以信息技术为代表的新一轮科技革命方兴未艾,信息技术与经济社会发展深度交汇融合,数据迅猛增长成为重要的基础性战略资源。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要而深远的影响。如何突破大数据关键技术,如何运用大数据推动经济发展、完善社会治理,如何在推动大数据发展的同时确保信息安全,已成为世界各国和各行各业普遍关注的热点问题。本次论坛以“大数据的发展与安全”为主题开展研讨,就是希望能对相关领域的技术和产业发展有所促进。
2016-11-17 14:54
邓麦村:中国科学院作为中国自然科学最高学术机构、科学技术最高咨询机构和自然科学与高技术综合研究发展中心,按照国家经济社会发展和科技创新总体部署要求,秉承“三个面向、四个率先”的办院方针,一直重视大数据基础研究和技术攻关,以及科学大数据的开发利用。邓麦村:在大数据前沿技术研发与应用方面,为应对终端接入规模、海量数据处理性能、能耗和安全等四大挑战,中国科学院于2012年启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,组织二十多个研究所的科研力量协同攻关,现已形成以人工智能芯片“寒武纪”、代数处理器芯片、深度可编程网络、三元融合安全技术、海云大数据系统等为代表的一系列原创性成果,在智慧城市、社会治理等领域得到了成功应用。
2016-11-17 14:56
邓麦村:在可信大数据技术、大数据安全通信、大数据访问控制、身份认证授权等大数据关键技术上,以及量子通信技术上已取得重要突破,成为国家大数据安全领域的中坚力量。同时,在数字地球、全球变化、高能物理、基因组计划、深空探测等领域,利用大数据技术驱动科技创新,也取得了一些重要成果。
2016-11-17 14:56
邓麦村:在科学大数据积累与应用方面,上世纪70年代,中国科学院就开始建设专业数据库。经过几十年的持续部署和推动,中国科学院现已建成服务全国科技界的“中国科学院数据云”,整合了各学科领域的1340个数据库资源,共享数据达655TB,年均在线访问超过千万人次。此外,中国科学院的网络安全工作也得到了行业主管部门和业界同仁的肯定。
2016-11-17 14:57
邓麦村:按照《中国科学院率先行动计划》和《“十三五”发展规划纲要》,未来一段时间,中国科学院将在大数据领域加强相关基础科学问题研究和软硬件关键技术开发,继续引领国家科学大数据建设,为国家大数据发展和大数据安全保障体系建设作出应有贡献。
2016-11-17 14:58
邓麦村:借此机会,我愿向大家提三点倡议:第一,推进大数据基础研究和技术攻关。大数据的快速发展提出了许多新的科学问题,仍有很多关键技术亟待突破。我们应深入开展数据科学研究,在大数据理论、方法及关键应用技术等方面进行探索,不断提升数据分析处理能力、知识发现能力和辅助决策能力,形成安全可靠的大数据体系。
2016-11-17 14:59
邓麦村:第二,加强大数据专业人才培养。发展大数据,人才是关键。大数据的快速发展对专业人才提出了非常急迫的需求。我们应创新人才培养模式,建立健全多层次、多类型的大数据人才培养体系,重点培养专业化数据工程师等大数据专业人才,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨接复合型人才,积极培育大数据技术和应用创新型人才,注重培养网络信息安全专业人才。
2016-11-17 14:59
邓麦村:同时,还应依托社会化教育资源,广泛开展大数据知识普及和教育培训,不断提高社会整体的认知和应用水平。
2016-11-17 15:01
邓麦村:第三,深化大数据国际合作交流。大数据的快速发展给世界各国都带来了共同的机遇和挑战。我们应坚持平等合作、互利共赢的原则,建立完善国际合作机制,积极推进大数据技术的交流与合作,充分利用国际创新资源,共同促进大数据相关技术和产业发展。
2016-11-17 15:01
邓麦村:中国科学院愿意同国内外同行和社会各界朋友一起,在新一代信息技术和服务业态蓬勃发展的浪潮下,共同为大数据发展与安全贡献力量!最后,再一次对国内外同行和社会各界对中国科学院科技创新工作的支持表示衷心的感谢!
2016-11-17 15:02
主持人:感谢邓麦村秘书长的致辞,接下来请图灵奖得主、卡耐基梅垄大学机器人研究院创始院长雷伊·雷蒂教授,以“人工智能和大数据服务社会”发表主旨演讲,大家欢迎。
2016-11-17 15:20
雷伊·雷蒂:
雷伊·雷蒂:大家下午好!我今天下午发言的题目是“社会服务中网络驱动的人工智能和大数据应用”,这一届的世界互联网大会的主题考虑进去之后,我其实把我的题目已经变长了,原来没有那么长,就变成了“社会服务中的网络驱动的人工智能和大数据应用”。
2016-11-17 15:21
雷伊·雷蒂:也就是说未来社会的发展,会有更多的大数据、AI方面的应用。但是如果我们没有高速的网络,所有的一切都是白搭。而高速的网络,如果我们没有计算机能力的指数级的增长,又是不可能实现的。每十年我们就会有100倍的增长,在过去的50年当中,我们应该是100的五次方,以这样的数级每年在增长,所以你想100的五次方,是怎样一种指数级的增长?
2016-11-17 15:21
雷伊·雷蒂:不是说我两倍三倍还是百分之多少,而是指数级的增长。所以我今天想跟大家说,如果没有这样的增长,我们就不可能实现所有互联网的一切。
2016-11-17 15:21
雷伊·雷蒂:我要跟大家分享的不光是说企业的精英、社会的精英,而是世界上的每一个人给我们带来互联网领域的机会。我会给大家讲一些大概的主题,首先很大的一个主题就是互联网,互联网已经有50岁了。阿帕网络诞生于1968年左右,1977年的虚拟网络,互联网诞生于1977年左右,互联网50年来飞速的发展,主要归功于什么呢?
2016-11-17 15:22
雷伊·雷蒂:就是它的指数级的增长数据处理效率内存带宽都指数级的增长,高速的互联网推动了人工智能、机器学习、大数据分析的发展,催生了各种各样的服务。而所有的技术和大数据的发展,让我们可能去做金字塔底端的低层人群都能使用的全社会性的数字应用。
2016-11-17 15:22
雷伊·雷蒂:接下来跟大家讲一下30年来计算效率、计算能力增长了数以百万倍,就是指数级的增长。在过去的30年当中,计算效率增长了数以百万倍,这些增长源于每一个个人电脑,每一个工作站,微型计算机。我们期盼未来30年有新的重大的突破,让每一个人都拥有带宽、内存、计算效率的变化,而且花费比一杯咖啡还低的费用。
2016-11-17 15:23
雷伊·雷蒂:这张图给大家看一下计算机的增长,从1900尤其到四十年代之后,到现在的2011年,其实是我们人类领域计算能力增长的一个急剧上升的阶段,我们看百万级的增长是什么意思呢?计算效率也以百万级别的增长,另外要给大家看一下硬盘的容量的变化,比如说我1972年我可能要花一百美元才能买到40G的储存容量,现在你买一个40G的容量,是不是100美金都不需要?
2016-11-17 15:23
雷伊·雷蒂:就是百万美金到一百美金这样的变化,每15个月硬盘的容量就会翻倍,光纤革命甚至每天都在发生。也就是说每一个人,比如说每一个手机以后有1T的容量很快我觉得是没有问题的。我们每光纤以后可以达到怎样的数量呢?
2016-11-17 15:24
雷伊·雷蒂:100、200、250的带宽已经非常的让人惊讶了,而且在接下来的五年、十年、二十年当中,增加的速度会更加的快,更加的惊人。大家要做好准备,所有的公司所有的企业都要准备好这一切,我给你100G的速度,你做什么?
2016-11-17 15:32
雷伊·雷蒂:给大家看看我们有了大数据,有了人工智能深度学习的突破,可以做什么?它可以催生金字塔底层人群使用的新的应用程序,这个非常非常重要。我们看一下金字塔,在过去的30年当中计算的效率增长那么快,让底层的人群有可能使用新的应用程序。世界上大家都没有意识到有这么多的人,其实是属于底层。有30亿的日收入低于2.5美金金字塔底端的人群,他们几乎是半文盲,不能阅读写作,也不能读写任何的语言,不会使用键盘,不会使用触屏计算机,如果是半文盲,沟通的唯一途径如果是讲话的话,你没有键盘,没有触屏,什么东西都没有。
2016-11-17 15:32
雷伊·雷蒂:你想象一下,沟通通过什么途径呢?你跟同事怎么沟通?当然是说话、讲话。我们未来跟计算机也要进行这样子的互动,非常直接的你就像对待一个人一样,对待你的电脑,你不需要去触屏,不需要打键盘跟它互动,你的电脑就像一个人一样,就是一个人,你跟它进行类似于对人一样的互动,这是一个电子人。你想,电子人它不是人,如果你要能够读懂一个电脑的话,你现在需要一个很受教育的人,而未来如果它是一个电子人一样,就像一个真正的人,有一样功能的话,世界上所有的人民都可以使用计算机了,这就是人类巨大的一个进步,可能在中国网络的普及率还是非常高的,但是大家要记住,世界上还有很多很多人,是没有使用电脑,是买不起日常生活用品的。他们还在贫困线下挣扎,你想每天生活的水平低于1美金的话,这样的人怎么可能去买电脑呢?
2016-11-17 15:32
雷伊·雷蒂:30亿人是什么样一个概念?他们每一个人只要花一美金的话,那就是30亿的容量。所以我今天的话题就是语音处理。互联网通过人工智能和大数据应用能够帮助30亿金字塔底端的人民。云处理到底可以做什么呢?我们连接之后,有了互联网可以做什么?可以娱乐,可以网上购物,网上购物是文盲的人很好的一个计算机应用,他们用的东西,如果他们想要,但价格很高,那就买不到。但是如果网络购物对他们来说变成现实的话,那你就有了一个万亿的新市场。但是他们没法读写。你要记住,他们怎么上亚马逊、上淘宝去买东西或看所有的信息呢?这里就是我们可以进行革命的地方了。我不用去亚马逊,比如说我有钱,我看不懂字,没关系,我让我的助理去买一样东西,去任何地方买一个东西,但是如果我们的计算机可以实现这一点的话,我不需要我的助理一个人去做这样的事情,我可以让我的计算机作为一个电子人去帮我变现这样的事情,甚至可以在全球的范围内进行购物。
2016-11-17 15:32
雷伊·雷蒂:如果技术可以在他们平民身上进行应用的话,甚至说英语这件事情,比如我在这儿说英语,机器可以帮你翻译成中文,而且用非常简洁的英语告诉你是什么意思,在2012年的时候已经实现了英汉互译技术,但是实时进行笔译,已经实现了。但是还有没实现的是什么呢?就是我们有很多很多的孤语,非常小的语种,可能一百万人讲这个语言的人口都不到,所以说是非常小众的人。这个事情现在还没有做,这个市场现在还是空白的,如果我们可以实现语音到语音的翻译,比如说从定语的语言翻译成本地的语言,这会给你提供很大的市场。
2016-11-17 15:33
雷伊·雷蒂:没有一个公司能为研发小语种应用投入大量的资金,我们需要做什么呢?我们不可能比如说很小很小的语言,比如说广东话、上海话,本地的方言,你要去识别,是非常重要的,现在还没有人做。这一点完全是可以实现的,如果我们有了这样一个技术,我们要做语言的研发和翻译,那么可以一起来做,我们最重要实现的是不需要触摸键盘,不需要电脑触屏就可以实现,我们就要考虑到政府的合作,很多底层人民的需求。下一个案例跟大家讲的信息是叫认知增强器和安全护卫天使,因为因特网带来人工智能和大数据的应用,这里面比如说可以非常的智能,并且保护你。这个就是我们说过的数据,现在慢慢的收集起来就应该利用起来造福社会。比如说你可以根据天气的原因,或者你睡眠的原因,睡眠的深度来决定你的手机要不要叫醒你等等,我们希望这些应用可以深入到我们的日常生活。
2016-11-17 15:33
雷伊·雷蒂:这里我举两个例子,一个叫认知增强器,什么意思呢?比如说我们到银行说我要付账单,那你去银行付了账单,这是你必须要做的这件事情。但是我的意思是说,如果你在家里,网上做这件事情,你想我没有时间去银行,你就叫你的助理去做这件事情,那么如果以后的认知增强器就像这么一个小助理的话,你必须要做这件事情,在一定的时间内。你必须要完成,你就可以让你的电脑去完成你本来可以做但没有时间去做的事情。
2016-11-17 15:33
雷伊·雷蒂:我本来想给大家讲一下架构的问题,很多程序是具有学习能力的,学习能力哪里来呢?来自大数据,手机的大数据,这些大数据不是给我用,而是给每一个人所有的大众都可以用。比如说亚马逊,你要去买一个电脑来看。那么有一些比如说底层人民我还不知道怎么样在网上付这个账单,如果你不需要这么一个交易的过程就可以完成账单的支付,你需要叫一个人支付,这是一个未来的增长潜能。如果机器有学习能力,你就不需要让程序员再去写一个新的程序,而是机器可以跟你直接进行互动。因为它有学习的能力,这个就叫深度学习,这个是我们未来发展的方向。
2016-11-17 15:34
雷伊·雷蒂:未来几十年我们相信会有新的重大的要素突破,带来计算效率的有几万倍的增长,从而使相同成本情况下效率达到更高,相同成本情况下成本变得更低。个人的数据已经被政府和企业收集在安全的范围内将数据进行分析即刻义得到合理的分析,寻找他们的规律通过纠错进行学习,通过阐述来学习。每个人都能获益于语音人工智能的助手深度学习机器学习是我们未来的趋势。就像你的助理在你身边学习你做的事情,并且帮你代理一样,机器未来就可以通过计算大数据来做这些事情。谢谢。
2016-11-17 15:34
主持人:谢谢雷伊·雷蒂教授,让我们再一次用热烈地掌声对雷伊·雷蒂教授精彩演讲表示感谢。接下来有请中国工程院院士、中国科学院计算技术研究所研究员倪光南先生,以“大数据在电子政务中的应用实践”为主题演讲。大家欢迎!
2016-11-17 15:35
中国工程院院士、中国科学院计算技术研究所研究员倪光南
倪光南:大数据很多人说大数据是财富,这里我们说把它作为生产力,生产力肯定能够产生财富,但是生产力是不是比财富更合适?因为一些经济学家告诉我们,生产力是最基本的,生产力决定生产关系,至少有一些经济学家是这么说的,今天的理论是这么说的。所以我们把大数据作为生产力,可能比大数据作为一种财富更好、更全面一点。我们强调大数据生产力,会推动生产关系的发展,推动社会的发展,当然会创造无穷无尽的财富,供大家参考,我们喜欢说把大数据作为生产力,进入大数据时代意味着进入了一个新的生产驱动时代,所以将来对于我们整个思维的发展将会造成很大的变革。
2016-11-17 15:35
倪光南:大数据的四种能力,或者说大数据的四个价值。第一个是融合Fusion。当然包含了集成,集成意味着数据的物理上的聚集,量的聚集。这里更加强调的质的变化,当而数据汇聚起来融合以后,它的价值会更加提升,远远比原始数据简单的算术相加要多。所以我们用了融合的意思,在中文上融合可能把它理解成汇聚加融合,就是数量和质量的提升,是大数据给我们提供的能力或者提供的价值。
2016-11-17 15:35
倪光南:第二,云计算Cloud。当大数据达到这样大的量的时候,你要迅速的利用它,在我们需要的时候随时能够利用,传统计算架构已经不适用了。这时候应用的是Cloud而云计算,云计算提供这种能力,对于大数据相适应的,云计算是为大数据而生的,或者说大数据和云计算相辅相成,两者之间互相推动,应该说互相促进,是一个非常典型的例子。
2016-11-17 15:35
倪光南:第三,Insight,意思是我们可以说明察秋毫,当你有了大数据,世界万物的关系你可以分析出来,很多人说我们不在意什么因果关系,我们在意的是关系。谁和谁能够够相关性,不管怎么样,我们有了大数据,直到世界万物之间可以发生过去没有想象到的,过去我们在商业上面啤酒和药物之间发生关系了,现在我们大数据会结合一些新的规律,人类可以发现一些新的规律、新的原理或者新的科学的创造。毫无疑问,通过理论分析,通过计算机到大数据,这是万物之间关系的方式。
倪光南:第四,预见性。Foresight大数据给我们一种预示性,可以更进一步。我们预测到将来什么时候会发生什么事情,非常有可能发生一些什么事件的预测,可以通过语境分析可以预测时间上的推进。这四个要求、四个价值、四个能力是大数据给我们的,以前是没有的,对我们非常有意义,对政府做科学治理体系的建设非常有价值。
2016-11-17 15:42
倪光南:政府利用大数据来做信息建设,这里是用一个部委,某一个部委,可能有相当类似,从顶层到中央政府到地方一直到基层,一个部委的信息化的建设,作为一个中央的部委,他将会命令一个什么要求,达到什么目的,大致上有相当的普遍性。底层我们要对待的是什么呢?四大块。第一块毫无疑问,大量的数据,你将要面临的一个部委的数据,我们知道比如说中国从地方来讲,应该有200多个地级市,2800个县镇乡,我们相信中国部委的信息化大数据系统难度要比目前世界上任何国家的信息系统或者电子政务系统更难。
2016-11-17 15:42
倪光南:第二,我们是一个异构,因为与历史的关系,我们不可能在现在作为一个新的系统,我们是要集成历史上的信息系统。这些数据,这些信息系统可能是不同时期做的,不同公司的,很多公司的,所以你发现异构是相当清楚的,是完全不同的异构系统,你要把它融合起来,是一个很大的挑战。
2016-11-17 15:42
倪光南:第三,应该是部门上的保护,各个部门之间很难融合。此外还有地级,毫无疑问,东南西北不同的地区差别都很大,而且地理位置的差异,这是我们面临的挑战。我们要做一个电子政务大数据,我们未来要达到什么目的呢?根据三个需求,我们要把它汇聚起来、集成起来、融合起来,就是刚才说的意思,我们要把这些信息大数据资源融合起来;日常工作。审计、监管,政府部门要做这些事情,我们大数据是用来支撑当前工作,使它更有效地完成得更好;这可能以前做不到,现在可以做到,如果大数据我们可以有科学决策。一个政策将会产生什么效果?应该可以预测,可以看到这是可行还是不可行,包括怎么改进。这是对于政府的科学决策,给予科学的工具来支持。所以我想大概无非是这几个地方比较重要,我们分别来讲这三块。
2016-11-17 15:47
倪光南:第一块融合是很难的地方,当你要建造一个信息系统,你不能把政府工作停下来,因为信息化你能说我这个部门关掉,等我两年以后做好了再开吗?不可能。每天还要继续工作,不可停顿。第一业务是不可以停顿的,信息系统必须在保证正常工作情况下进行,所以这是采用什么对策呢?其实我们要把数据的获取的手段用一种很巧妙的方式,在它运作的时候,我能抓取它,不是停下来我把它拷贝下,把政府的数据库清理出来把数据拿过来不行。政府照常工作,在政府运营的工作中谁去抓取数据,这套办法就是这个例子,具体操作上大家知道怎么做数据库,不断地提取,不影响你正常工作,这是第一个挑战。
2016-11-17 15:47
倪光南:第二块,所有的政府部门是遍布全国的,这个比较简单,实际上采用的在中国的网络,也是有几家运营商,我们要谈合作一起做,并行的做。这个基本上可以想像代价多一点,此外比较难的,我们知道数据结构,就是因为历史上这些数据都不是一次建的,不同厂家,不同规格这个是很难的。比如说面临的数据,我们知道你可能是不同的结构,你的数据库不同厂商,你的资源定义是不一样的,你的数据模型是不一样的。所以当你要用一个数据的时候,你会发现在这个数据库要用,用这些方法收集组合,但另外一个又是完全不同的。这里提出了智能的数据切片,实际上用一种相当于影射,没有一个地方我投影投到一个地方,不同的数据库投到另外的投影,最终效果一样,最终是新的办法解决。最后我们的数据我们知道并不是很好的,有的数据很多垃圾,不是很合理的,你需要用一些很灵活的模型,各种演化的方法不断的改进。
2016-11-17 15:47
倪光南:我们看到最后的效果,用这样的方式我们支撑了1700个服务器,遍于全国的1700个服务器支撑这个系统。大量的数据在200个城市里能够有3个PB的数据,但是我觉得大概一年无非增加1是个PB,不断增加,而且大概覆盖到98%,还是相当大的覆盖。应该说是一个足够大的规模,这是目前的效果。
2016-11-17 15:47
倪光南:刚才讲未来满足监管审计的要求,相对来说比那个简单一点,我们知道原来上报数据,就是给领导上报,比如一星期我们知道每个部门不一样,一周也有,半个月也有,一个月也有。现在来讲就可以自动实时上报,不需要报表,实时的可以从系统里抓取你的数据。过去政策性很难保证,现在没有问题。以前你很难知道它变化,现在是实时数据,这点没有问题,现在可以有权限地分配,更加合理的应用,这个大家可以想象,有这样的数据信息系统以后对于信息监管毫无疑问有很大的影响。
2016-11-17 15:48
倪光南:达到的效果这里讲的10秒,可以在10秒钟把任何的数据提取出来,这对于管理来讲有很大的效果。此外我们知道所有的历史变化你也可以得到。而且我们知道权限可以明确地分配,就是谁可以获取哪些数据,这个是很重要的,不同的权限可以看到不同的结果。包括系统管理应该是看不到重要的数据,这个是需要有很好的权限分配,这是效果,这是当前管理效果。最后是我们对预测的效果。过去这种信息系统是大数据系统所做不到的,我们希望未来要实现过去信息孤岛的问题,现在我们已经通过融合的手段可以把数据统一起来,使整个的权限数据可以互联互通,另外我们过去来讲历史数据不一定有,今后的历史数据应该永远发展下去,永远保留下去。过去有一些东西会删掉,现在这些会不断地积累下来。此外,过去的数据会滞后,现在可以动态的实时分享,业务也可以联系起来,综合业务决策不是单路的决策。谢谢大家。
2016-11-17 15:48
主持人:谢谢倪光南院士,我们再一次用掌声对倪光南院士精彩的演讲表示感谢。接下来有请澳大利亚科学院院士、工程院院士,墨尔本大学终身教授饶·寇他科里先生,以“大数据分析的前沿技术”为主题进行演讲,大家欢迎!
饶·寇他科里: 数据分析的前沿技术
2016-11-17 15:56
饶·寇他科里:首先我来讲一下笼统的概念就是深度学习以及它的应用,什么是最先进的深度学习,那就是用最先进水平的技术可以非常稳定的来采取数据来实现人工智能来解决一些人工智能的问题。比如说进行自然语言的加工,李世石已经被谷歌的AlphaGo打败了,它就成为世界上最厉害的围棋手,这个是非常典型的深度学习的典型象征。我相信在未来的几年过程当中,我们就可以用系统来进一步的开发,我们都知道谷歌的Alphago它是怎么样的一个神经网络呢?
2016-11-17 15:57
饶·寇他科里:这个是他们背后的逻辑,也就是说我们理解背后的逻辑以及语言的网络,最后可以用在我们的其他的成功案例过程当中。这个就是我们所使用的最典型的一个架构,这个架构看到了一些图片的处理,语言的处理、语音的处理等等,还要基于问题处理其他的东西,不光是图片、语音,我们需要有识别,我还是给大家看一些挑战,我们有什么样的挑战呢?我们叫把它叫做ILSVRC,就是说一个图片,它在大规模大范围视觉认知的时候,会遇到各种各样的挑战,比如说你看到这个图片,你去摄影它的时候需要对象识别,这个图片到底是告诉你这是一只鸟还是一只青蛙,这个地方就会有难度,所以你需要有对象的定位,所以这就涉及到对象的识别和定位,这个图片也是。到底是一个人一条狗还是一个椅子?这个就是计算机识别的基准,我们遇到大规模视觉识别的挑战。大规模视觉识别挑战,还有这样一个统计的数据,就是最难的五个图象处理,ImageNet方面的五大错误,这个错误率当然是一年比一年降低,而且降低的速度也是非常非常快。
2016-11-17 15:57
饶·寇他科里:到2014年,我们基本上已经把错误率降到很低很低的,到了2015年,现在计算机已经跟人眼所识别到的东西水平是完全一样的,这就是我们神经语言网络可以帮我们做到的水平。当然人类还需要更多的东西,比如说图象字幕的抓取,这也是我们想做的一件事情。
2016-11-17 15:57
饶·寇他科里:另外一个案例很有意思,两个图片,比如说下面一个,你给他下面一个图片,然后机器会给你一张很漂亮的图片,就是右边的这个。另外一个机器学习的案例呢,就是你给它两张,一张照片,一个花图,最后出来一个非常漂亮的图片。其他的也一样,这也是我喜欢的图片,马和面条结合出来这么有艺术感的图象。这个就是我们了解的神经语言网络,最后出来了这么一个特征图,也就是说它会把这些图片的特征都有机的,或者用艺术的感觉把它连接在一起。
2016-11-17 15:58
饶·寇他科里:这个就是深度学习的应用,包括计算机的视觉,包括标注、计算机、无人驾驶汽车这里面都是需要用到计算机视觉,比如说你把我的名字输进去以后,给你各种各样我的图片以及我这个人涉及在一起的各种各样的图片。自然语音加工是深度学习应用的另外一个案例,然后是现场翻译,我觉得现场翻译亚马逊翻译等等,以后都是可以实现的,包括大城市的数据,车辆的数据等等。
2016-11-17 15:58
饶·寇他科里:接下来,给大家讲一下对抗性样本和无法识别的样本。神经网络易受的干扰就是对抗性的噪音干扰。比如说这里面有123456789,如果你加进去一些肉眼看不到的声音进去以后,最后一模一样的图片出来的数据,就变成了6332931这样的,完全不一样的数据。其实这个数据还是123456789,也就是说有一些声音,虽然我们人是完全感知不到的声音,而这些声音输入到机器当中,计算机会非常非常的敏感,会干扰它对图象的识别。这个就是机器所敏感的噪音,另外我们还做了一个随机大容量噪音,随机大容量噪音不是非常细微,而且大家都一样,在每一个数据上面都加入了大容量的随机噪音,出来的结果影响并不是很大,只有一个数据错了。
2016-11-17 15:59
饶·寇他科里:再比如说,我们看所有的图片,大家看这个图片,它会识别出来的时候都是蘑菇,如果加了噪音以后,识别出来的结果会不一样,所以声音对图形的识别是很有意思。我们加入过程当中,我们怎么样去做对抗性的干扰,对抗性的声音?对抗性的声音我们用的是分类器,我们用不同的每一次识别的时候,我们都输入X,它的矢量也会不一样,对抗性和概率也是不一样的。
2016-11-17 15:59
饶·寇他科里:最后这个问题,是通过梯度下降实现噪音的对抗性干扰。对抗性干扰,样本的属性应该是非常特别的,刚才我说到的普遍性,就是需要用这样的分类器和基本的线性模型和良好的训练。它的概括性和普遍性是可以通过我们的干扰来实现的。不管你做什么,他们都必须要非常得小心,我们要有很多很多的技术,这个比较专业。比如说基本信息模型,良好的训练分类器等等,抵抗力方面,我们需要正规化,需要降噪建筑,需要对抗性的训练,还有同时发声、共振等等。还要进行一定的预处理,比如说低通滤波器,有源探测等等,普遍性的应用是刚才汽车的例子,这个概化属性的案例比如说语意解释,是像这样的图片过程当中,我们在这个图片的输入过程当中加入噪音,让机器变得疑惑,这个到底怎么样,它会退出来。对抗性的样本是数据部分固有的,是固定任何模型的。说到无法识别的样本,机器跟人最大的区别,就是我们觉得没有问题的东西它会觉得无法识别。这些东西到底是什么呢,需要输入一定的干扰才能够识别。
2016-11-17 15:59
饶·寇他科里:最后这个问题,是通过梯度下降实现噪音的对抗性干扰。对抗性干扰,样本的属性应该是非常特别的,刚才我说到的普遍性,就是需要用这样的分类器和基本的线性模型和良好的训练。它的概括性和普遍性是可以通过我们的干扰来实现的。不管你做什么,他们都必须要非常得小心,我们要有很多很多的技术,这个比较专业。比如说基本信息模型,良好的训练分类器等等,抵抗力方面,我们需要正规化,需要降噪建筑,需要对抗性的训练,还有同时发声、共振等等。还要进行一定的预处理,比如说低通滤波器,有源探测等等,普遍性的应用是刚才汽车的例子,这个概化属性的案例比如说语意解释,是像这样的图片过程当中,我们在这个图片的输入过程当中加入噪音,让机器变得疑惑,这个到底怎么样,它会退出来。对抗性的样本是数据部分固有的,是固定任何模型的。说到无法识别的样本,机器跟人最大的区别,就是我们觉得没有问题的东西它会觉得无法识别。这些东西到底是什么呢,需要输入一定的干扰才能够识别。
2016-11-17 16:00
饶·寇他科里:我们的结果是蓝色的这一部分,大家看Epochs,数据可以学习的周期,,可以学习的数量越来越大,学习成本会越来越低,错误率会越来越高,蓝色的就是错误率的降低。当然我们会有一些比较危险的,你输入太多噪音干扰的话,会有一定的风险。我们看到Net1和Net2,Net1是生成噪音的地方,Net2是我们的目标系统。我们看一下稳定性、稳健性,以及怎么样对抗这些样本的稳定性,我们也可以看到输入一定的噪音干扰之后可以降低三分之一的错误率,这个就是神经语言网络学习,当然大家需要去理解这些理论,我们如果知道背后的理论才能够进一步的利用它,减低错误的机率。我们在实验的过程当中,也发现了随机系统是非常稳健的,可以做到非常高度的随机性,99%的随机性,可以看到神经系统随机语言可以达到百分之百的随机性。在整个系统的稳定性方面,基本上可以达到90%的提升。接下来会做什么呢?我们用随机投射,进一步利用到回界回脑的架构当中,我们会继续利用这一点,然后是对抗性的扰乱或是干扰。谢谢大家。
2016-11-17 16:00
主持人:谢谢饶·寇他科里教授。接下来有请中国科学院院士,中国科学技术大学常务副校长潘建伟教授,以“新量子革命:用于更安全和高效的大数据分析”为主题的演讲,大家欢迎!
2016-11-17 16:44
潘建伟教授,新量子革命:用于更安全和高效的大数据分析
潘建伟:很高兴能够参加今天的论坛,我的话题是新量子革命或者量子飞跃,为了能够更加安全和有效地进行大数据分析,我们为什么需要大数据分析,刚才几位非常杰出的学者都做了比较好的阐述。一方面从各式各样的资源进行数据收集的时候,我们是需要有互联网的安全性,希望数据能够被安全的收集。同时我们采集到数据之后,希望也能够对数据进行有效的挖掘,我们需要很强的计算能力。
2016-11-17 16:44
潘建伟:但是在这些事情当中,我们有几个挑战。第一个就是互联网的安全性,其实我们在服务器的终端,在我们的信息的传输的过程当中,和服务器当中都存在着各种各样的漏洞,所以都有一种潜在的威胁,觉得我们的信息有可能被泄露。但是为了解决这个问题,我们可以用加密的算法,比如说通过身份认证来确保用户的合法性。同时在传输的过程当中,通过对数据的加密来保证信息不会被窃取。与此同时也通过数字签名,可以比较好的保证我们的数据在传输的过程当中不会被篡改。但是在所有的传统做法当中,都是依赖于加密算法,通常加密算法是依赖于计算的复杂度算法。我们把全世界的计算能力收集起来看一下,要对某个数据库进行搜索的话,它只能对一个2的80次方数据库进行搜索,密码破解的时候,我们在收集的过程当中,破解的能力是非常有限的。
2016-11-17 16:45
潘建伟:非常有意思的是,量子力学从前是为经典技术提供非常好的方案,我们芯片各种各样的期间有赖于量子力学的发展,量子力学研究的本身,也为了解决刚才所讲到的这些问题提供了可能性的解决途径。
2016-11-17 16:45
潘建伟:具体的来说,运用了量子力学的基本原理。我们都知道,在量子力学里面,我们说比特可以用一只猫的死和活两个状态来看,比特在微观世界里面,在物理上怎么来实现呢?我们可以用光子的极化,比如说电磁波在真空当中传播的时候,沿着水平的偏正,未知的量子态是不能被精确复制的,这是这个定理告诉我们的。
2016-11-17 16:45
潘建伟:比如说利用所谓的当光子不可分析性,单光子一颗一颗的,对于量子不可克隆的定理,如果存在窃听者,这个方法是不能做的,只能进行复制或者测量。测量完之后就会引入噪声,就会觉察。用这样的方法,在两个之间建立安全的密钥,这样的安全的通信方式是依赖于物理学的基本原理,而不是依赖于计算的复杂度。这样的话,我们就能够保证由物理学基本原理所保证的互联网的安全性。与此同时,当我们利用量子纠缠的概念,拓展到很多粒子的时候,我们就可以涉及一些特殊的量子算法,利用量子叠加原理,我可以分解一个300位大数,目前的ClassicalTHz15万年,用量子的1秒钟就可以了,从这样的角度讲,量子的计算功能是比较强大的。
2016-11-17 16:46
潘建伟:还可以举另外一个例子,在求解方面,利用目前最广的太湖之光,相当于100个24个方的线性方程组100年左右,用量子计算机需要0.01秒完成了。但是真正的把这样的机器研制出来,我们还是需要比较长的时间,所以目前对我们物理学家来说,我们主要的精力是集中在量子模拟上面。利用这样可控的量子系统,我们可以来计算一些目前的每天的计算机所算不了的事情。比如说可以来求解一些方程,专门求解高温超导里面的机制或者霍尔方面相关的研究,这是我们这个领域里面的一些基本原理。
2016-11-17 16:46
潘建伟:总体上来讲,目前我们估计上正在做这么一件事情,就是说为了实现这么一个大尺度的LargeScale,首先用光纤构建各种各样的网,这个技术是比较成熟的。同时利用所谓的Scale将各个城市之间连起来,两个连接起来会比较有效,到了更广的时候来实现广域的LargeScale。有了这些事情以后,我们可以比较好的来做未来的一些发展。目前在我们中国,比如说我们已经在2012年的时候,已经能够相关的技术覆盖到6000平方公里的来支持千节点、万用户的相关需求了。这么一来,这样的系统目前比如在北京,已经投入永久使用了,来进行一些相关的安全的使用。除此之外我们目前也在构建所谓的北京到上海之间的量子通讯网络,就是骨干网络,骨干网络昨天正好是上海到合肥之间所有的设备开通了,昨天正好在国际会议上给国外学者做相关的展示,这是700公里光纤,这个到今年年底也会完全开通,开通之后可以用于一些银行的转账等等。
2016-11-17 16:47
潘建伟:另外我们也在开展一个相关的工作,是跟量子卫星紧密结合的,我们其中的主要任务,希望能够实现一个高速率的,卫星和地面之间的密钥的分发。我们在今年的8月份,量子卫星正式发射之后,已经开展了相关的实验。相关的实验,我们在星龙地面站,这是我们卫星的轨迹,这是我们地面对天上进行跟踪,我们曝光是5到10秒钟,天上的信号是完全可以看到的,点就变成一条线了,到目前为止非常好的建立了天地之间的链路,目前的速率大概每妙钟传输的密钥是在20000个左右,所以基本上可以满足一些安全信息传输相关的需要。
2016-11-17 16:49
潘建伟:在量子计算方面,因为我们目前很难想象计算机到底是一种固态的?还是业态的?还是气态的?大家都不清楚,相当于从前我们讨论说我告诉你有一台有非常好的算法能够算的很快,大家会问你你这个计算机到底是用珠子玻璃做的?还是竹子做的?还是木头做的?经常会问我们将来的计算机到底是用原子做的还是什么做的?目前回答这个问题还太早了。目前我们这个领域有用离子的、光子的、Cavity-QED等各种各样的系统,我们来进行相关的研究,希望能够找到一种适合于进行量子计算的体系,在这个过程当中,我们有几个任务是需要完成的。
2016-11-17 16:49
潘建伟:第一个需要能够对量子的状态进行高精度的支配和操纵,能够让它有很长的存储和相关时间。如果计算都还没计算完,如果就死掉了,那你就很难获得正确的结果了。为了让计算能力越来越强大,所以需要把好多粒子纠缠起来。只有这样我们才能够进行有效的量子计算。
2016-11-17 16:50
潘建伟:目前比如说在我们的体系里面,我们已经做了一些相关的演示,比如说做各种各样的量子算法的演示。我们可以用我们的量子算法来有效地求解线性方程组,我们知道方程组的求解在信号处理,在经济学的分析,在计算科学和物理学方面是广泛应用的,求解这么一个方程组的话,相当于做这么一个反向的求解,找到一个A负的矩阵,把X等于多少求解出来。找到这么一个矩阵,首先找到A的本正值engenvalues,大概需要这么多步。有了这个方案之后,就可以构造所谓的矩阵。
2016-11-17 16:50
潘建伟:假定我们有这么一个方程组,这是一个非常简单的游戏机一样的,我们构建这么一个比较小的所谓的Serqute,之后我们就可以在实验上来验证我们确实有这么一种计算可以在小的步骤里面完全量子计算。但是这个过程的话,我们也可以把它用到所谓的机器学习里面。在这个地方对一个数据进行分类,我们这里有很多Samplevector,有好的Vector,还有坏的Vector。
2016-11-17 16:50
主持人:谢谢潘建伟院士,让我们再一次用掌声对潘建伟院士的精彩演讲表示感谢。
2016-11-17 16:51
主持人:尊敬的各位来宾,女士们,先生们,接下来请电器和电子工程师协会可拓展计算委员会主席陈金俊先生,以“大数据—大应用”为主题进行演讲,大家欢迎!
陈金俊
2016-11-17 16:54
陈金俊:各位领导,各位嘉宾,大家下午好!现在很多人都在谈大数据,各个国家、各个企业、各个地方。有的人会说数据和石油一样,是重要的资源,也有的人会说数据加人才是现代企业很重要的决定性的力量,有很多包括Bigdata等不同的,关键的核心点都是类似的,就是从大数据当中找到有用的信息,对于企业来讲新的产品、新的机会,对政府来讲新的管理模式等。
2016-11-17 16:55
陈金俊:对大数据的看法有很多种,不同的人有不同的看法,还有人从投资的角度,不管你怎么看大数据,最基本的概念是要有价值要有Value,没有价值,不管数据多么大,其实没有太多的意义。从Value的角度讲,关心的是能不能从大数据分析出更多有用的信心,比如说新的产品,相比较传统的企业单个分析数据,跨行业,不同种类的数据分析,可能会令人更加的激动。过去几年云计算的普及以及深度合作,拥有很多不同种类的数据成为可能。不像以前我们只能设想我们有很多种数据,现在因为云计算很普及,大家把数据放在云上,拥有不同种类的数据成为现实。
2016-11-17 16:55
陈金俊:当然单个领域数据的分析缺失是很重要的,比如说一个超市的零售业,你对用户购买兴趣消费的分析很有用,不同种类的数据分析,不同种类的数据因为云计算的普及,因为大数据成为可能。我们的观点,对企业家来讲分析不同种类的数据。
2016-11-17 16:55
陈金俊:一个真实的例子,在澳大利亚跟我合作的企业,有订飞机票的企业,还有超市的企业,原来他们是两个不同的企业,他们各自管理各自的数据,现在因为云计算的原因,他们把数据放在云上,比如说有人经常晚上买东西,这样的人你就应该推荐晚上的飞机票。把不同种类的数据之间微弱的关系找出来,这种微弱的关系往往意味着新的市场、新的产品,这个在以前大数据之前,在云计算之前不是很容易想象的。因为那个时候你并没有把不同种类的数据放在一起。
2016-11-17 16:55
陈金俊:对于做研究的来讲,我们知道要做大数据,首先得有大数据,因为要但量多,数据更新特别的快我们知道对大多数研究者来说我们没有真实的数据,企业不太愿意跟我们分享他们真实的数据,可能基于各种各样的原因。所以我们只能用一些官方的数据,对于研究者来讲,如果要更有效,我们要接触真实的数据。如何接触真实的数据?要更多的要跟企业合作,解决他们的问题,可以访问他们的数据。否则的话,我们访问的网上公开的数据往往并不是实的。
2016-11-17 16:56
陈金俊:在这个阶段上,无论从企业来说,分析不同种类的数据,对科研人员来讲的话,要接受真实的数据进行分析,在目前的阶段大数据更多的是应用。你现在去定义大数据科学,其实并不是一件很清楚的事情,什么是大数据科学?更多的是应用。从应用当中产生一些数据的科学,然后解决问题。基于这个出发点,我们跟很强的跟企业合作,现在最典型的两类行业,零售业和航空订票的行业,就是因为把不同种类的数据放在一起,找到他们微弱的关联性。
2016-11-17 16:57
陈金俊:这种微弱的关联性刚才说了,比如很多人晚上出去买东西,你就给他推荐晚上的飞机票,还有把医院的数据和保险公司的数据放在一起分析,分析过去两年医院的健康的情况,然后可以帮助保险公司设计出更好的保险产品,这是两个真实的例子。总的来讲,就是把不同种类数据放在一起找出不同的关联性,产生新的商机,是企业关心的,这是大数据带来新的机会,在云计算普及之前只能设想不同的数据放在一起,现在因为云计算数据放在一起产生大数据,拥有不同种类的数据成为现实。
2016-11-17 16:57
陈金俊:跟企业合作的时候,企业常常问我们的问题非常简单,尤其是一些传统企业,他们并不关心你跟我讲的大数据,就告诉我能得到什么。另外一个问题是你说把我这些数据不同种类的放在一起,医院的数据,保险公司的数据。比如说订票的会员数据,还有超市的数据放在一起进行分析,你怎么保证他们的隐私?这是他们直接问我的。
2016-11-17 16:57
陈金俊:做企业大家知道,并不关心三年、五年,我要的就是现在。所以他一定要很快速的,相应的就在这三方面做分析,不同种类的数据之间把关联性找到非常微弱的关联性往往意味着新的商机,如果关联性非常强并没有太大的意义,你能看到的机会别人也可以看到。大数据不同种类的数据分析出来找到微弱的关联性,就像刚才医院和保险公司一样即刻帮助保险公司提供更好的产品。就像刚才说的超市和订票公司一样,可以告诉订票公司更好的推进产品,不同种类的数据觉得因为云计算过去的普及产生的,因为大数据产生的新的比较集中的点,这并不意味着单纯的一个点不重要,是重要的。
2016-11-17 16:57
陈金俊:另外关于隐私安全,做隐私知道的,隐私的问题是非常主观的问题,什么隐私?什么不隐私?如何基于应用设计出考虑到设计、空间,主要是隐私,昨天我生病了,昨天是隐私,今天我好了就不是隐私。最后的结论点就是说大数据不管怎么看它,最终还是回归到价值,一定要有价值,从价值的角度看它。如果没有价值,这个数据再大也没有意义。
2016-11-17 16:57
陈金俊:从应用的驱动产生价值,在这个阶段应用驱动会更恰当一些,考虑什么是数据科学。更加令人激动的是不同种类的数据找到它的关联性意味着新的商机对企业来讲及因为云计算的普及,大数据不同种类的数据成为现实,是一个新的点,是一个比较激动的点。这是我们一个观点,也是我们正在做的,谢谢大家。
2016-11-17 16:58
主持人:谢谢陈金俊先生,让我们再次用掌声对陈先生的精彩演讲表示感谢。接下来有请中国信息通信研究院总工程师余晓晖先生,以行业自律推动建立大数据流通信任体系为主题进行演讲。大家欢迎。
via:网络大数据
慧都控件网超级促销月,全场6折起,豪礼抢不停>>>
截止时间:2016年11月30日
详情请咨询!
客服热线:023-66090381