《量子计算机将如何改变AI/机器学习/大数据》

  • 来源专题:集成电路
  • 编译者: tengfei
  • 发布时间:2017-11-20
  • 据福布斯杂志报道,我们每天能产生2.5EB(约合10亿GB)数据,这相当于25万个美国国会图书馆或500万台笔记本电脑记录的内容。我们有32亿个全球互联网用户,他们每分钟在Pinterest上发布9722个Pin,在Twitter发布347222条消息,在Facebook上留下420万个“点赞”,我们还通过拍照和视频、保存文件、打开账户等行为产生其他大量数据。
    我们正处于传统计算机数据处理能力的极限,而数据却依然在不断增长。虽然摩尔定律(Moore’s Law)预测集成电路上的晶体管数量每隔两年就会翻一番,但自1965年这个术语出现以来,事实证明它具有很强的弹性。随着技术的进步,这些晶体管现在的体积越来越小。正因为如此,业界领导者们展开了激烈竞争,看谁能首先要推出一款比现有计算机更强大的量子计算机,来处理我们每天产生的所有数据,并解决日益复杂的问题。
    量子计算机能快速解决复杂问题
    当这些行业领袖成功地制造出商业上可行的量子计算机时,那么这些计算机就有可能在几秒钟内完成庞大的计算量,这些任务可能需要传统计算机花费数千年时间才能完成。今天,谷歌宣称已经拥有这样一种量子计算机,据说它的速度比当今任何一种计算系统都快1亿倍。如果我们能用它处理生成的大量数据并解决非常复杂的问题,那将是至关重要的。成功的关键是把现实世界中的问题转化为量子语言。
    我们生成的数据集的复杂性和增长规模远比计算技术进步快得多,因此对我们的计算结构造成了相当大的压力。虽然今天的计算机难以解决或无法解决某些问题,但这些问题预计将被量子计算机在几秒钟内破解。据预测,人工智能(AI),尤其是机器学习,可以从量子计算技术的进步中获益,而且还会继续持续下去,即使是在完整的量子计算解决方案出现之前。量子计算算法使我们能够增强机器学习的能力。
    量子计算机将优化解决方案
    量子计算将促进数字革命的另一种方式是,我们能够对数据进行采样,并优化我们遇到的各种问题(从组合分析到最佳递送路线等),甚至能帮助确定每个人的最佳治疗方案和医疗方案。
    我们正处在大数据增长的关键点上,我们已经改变了我们的计算机架构,这就需要用不同的计算方法来处理大数据。它不仅规模更大,而且我们要解决的问题也变得不同。量子计算机更能有效地解决连续性问题。他们给予企业甚至消费者做出更好决策的能力,而这正是说服企业在新技术方面投资所需要的。
    量子计算机可以识别大数据集中的模式
    预计量子计算将能够搜索非常大的、未排序的数据集,以非常快的速度发现模式或异常。量子计算机可以同时访问数据库中的所有条目,从而在几秒钟内识别出这些相似点。虽然这在理论上是可能的,但它只发生在一个并行的计算机上,并且只能以一个接一个的方式查看每个记录,所以它花费了大量的时间,并且取决于数据集的大小,它可能永远不会成为现实。
    量子计算机可以帮助整合不同数据集的数据
    此外,由于可被用于整合不同的数据集,量子计算机有望获得巨大突破。虽然这在没有人类介入的情况下可能是困难的,但是人类的参与将帮助计算机学会如何在未来整合数据。因此,如果有不同独特模式的原始数据源,并有研究团队想要比较它们,那么在数据被比较值钱,计算机就必须理解模式之间的关系。为了实现这个目标,需要在分析自然语言的语义方面取得突破,而这正是AI面临的最大挑战之一。然而,人类可以提供输入,然后对未来系统进行训练。
    最终,量子计算机将允许快速分析和整合庞大的数据集,这些数据集将改进和改变我们的机器学习和AI能力。

相关报告
  • 《Wrangler超级计算机加速了大数据:数据密集型超计算机为用户带来了高性能科学计算》

    • 来源专题:宽带移动通信
    • 编译者:gaof
    • 发布时间:2016-05-23
    • 综述: 根据一项特别报道,新型超级计算机Wrangler正帮助研发人员加速大数据发展和取得新发现。超级计算机Wrangler设计的更加用户友好型,用网页驱动的方法实现高性能的计算,包括数据分析。 处理大数据有时候对需要快速和超级计算的研究人员来说就像没有铺平的道路。 “当你处于数据的世界,路上充满了岩石和碰撞,有许多事情需要关心,”前哈勃太空望远镜科学家现在是德克萨斯高级计算中心(TACC)数据密集计算小组的领导的Niall Gaffney如是说。 Gaffney努力使新的超级计算机Wrangler上线,像以前驯服野马的西部牛仔一样,Wrangler驯服的是大数据,比如包含分析成千上万文件的计算问题,这些文件需要快速打开检查并相关分析。 Wrangler填平了由(NSF)美国国家科学基金支持的XSEDE(极端科学和工程发现环境)的超级计算资源的缺陷,XSEDE是先进数字资源的集合,科学家们可以共享这些数字,分析产生于每一个领域研究的大规模数据集。2013年,NSF奖励TACC和它的学术合作伙伴印第安纳大学和芝加哥大学1120万美金,用以建立和经营Wrangler,处理数据密集高性能计算的超级计算机。 Wrangler被设计用来与Stampede超级计算机密切合作的,根据每年两次的500强排名,Stampede超级计算机能力排名第十,并且是奥斯丁德克萨斯大学TACC的旗舰产品。自2013年上线以来,Stampede完成了开放科学600万次计算工作。 “我们保持了与Stampede系统很好的兼容性,” Gaffney说:“但是添加了一些新的东西,比如超大规模闪存系统、超大规模分布式旋转光盘存储系统和高速网络访问,这使得那些有不能被如Stampede和Lonestar系统解决的问题的人能够用他们之前没尝试的方法解决。” Gaffney做了一个对比,Stampede那样的计算机像赛车跑车,神奇的计算引擎最优化以在光滑的跑道上快速前进,另一方面,Wrangler更像是拉力赛车,在没有铺平的崎岖的道路上快速行进。 “如果你开一辆法拉利参加越野赛,会想改变道路,” Gaffney说:“你想改变整辆车组装在一起的方式,即使使用相同的组件,要适合于人们不同的用途。” Wrangler的核心是600兆兆字节的闪存,通过其超过3000个Haswell计算核心PCI(外部控制器接口)互联共享。Gaffney说:“系统的所有部分都可以访问相同的存储空间,他们可以在这些数据上进行并行操作,这些数据存储在这个高速存储系统中,以获得他们在其他地方不能获得的结果。” 这些大量的闪存来自于DSSD,DSSD是由Sun Microsystems的Andy Bechtolsheim联合创立的公司,2015年5月获得了EMC。 Bechtolsheim在TACC的影响追溯到他领导的‘Magnum’无线网络带宽交换机,是为了Stampede的前身已经退役的Ranger超级计算机设计的。 DSSD在CPU和数据之间选择了一个捷径,这一点是比较新颖的,“计算机的大脑直接连接到存储系统,中间没有转接,” Gaffney说:“它实际上允许使用一些你能轻松得到的快速存储器直接计算,两个之间没有问题。” 加速了基因分析途径 Gaffney回想起了科学家们面对OrthoMCL时遇到的问题,OrthoMCL可以分析来自于从看似不相关的物种发现相似的基因血统的DNA序列,问题就是OrthoMCL会像一匹难以驯服的野马一样释放数据。 “它产生了海量的数据,外部运行计算程序,而且必须与这些数据进行交互,” 德州大学奥斯汀分校综合生物学系和计算生物学及生物信息学中心的生物学家Rebecca Young说。她补充道:“这不是Lonestar、Stampede以及其他一些TACC的资源设立的目的。” Young讲述了如何第一次借助网络资源使用OrthoMCL,她只能从10个物种中找出350条类似的基因,“当我在Wrangler上运行OrthoMCL时,我能在这些物种中得到差不多2000个类似的基因,” Young说,“从已经能达到的程度来说这是一个巨大的进步,我们使用OrthoMCL的目的就是允许我们在关注这些4.5亿年进化过程中分离的相异的古老的物种时可以得到越来越多相似的基因。” “现在我们可以在任何地方15分钟到6小时之间完成这些任务了” Gaffney说:“Wrangler改变了游戏规则。” Gaffney补充说快速得到结果使科学家们通过分析大数据探索新的和更深的问题,驱动之前不能得到的发现。 优化建筑的能源效率 美国橡树岭国家实验室(ORNL)计算机科学家Joshua New希望利用Wrangler能力的优势驯服大数据。New是Autotune项目的主要负责人,Autotune项目创建了一个建筑物的软件模型,校准来自不同数据源的超过3000个数据输入,比如费用单,生成一个有用的信息,比如最优的节能改造是什么样的。 “Wrangler有足够的马力,我们在一次运行中可以进行许多大量的研究并得到有用的结果,”New说。他最近使用ORNL的Titan超级计算机进行500000次模拟并在68分钟时间内像磁盘写了45TB数据。他说他想扩展他的参数研究,模拟美国全部的1.251亿个建筑物。 “我认为Wrangler为我们提供了一个特殊的有利可图的市场,我们把我们的分析转向了端对端的流程,在这个流程中我们定义我们想改变的参数,”New说:“它生成了采样矩阵,他生成了输入文件,它计算所有计算上有挑战性的任务,并行运行所有的模拟仿真,它生成了输出,然后我们运行我们的人工智能和统计技术,在后端分析数据,在Wrangler以可靠的流程上自始至终做这些工作是我们非常兴奋的。” 当Gaffney说起Wrangler的存储的时候,说是非常大的数据存储空间——10拍字节基于Lustre的文件系统服务器由TACC托管,印第安纳大学有复制品。“我们希望保存数据,” Gaffney说:“Wrangler系统的建立使数据是首要的部分,在这些数据之间人们进行他们的研究,允许我们紧紧抓住数据,并与他人分享,这些正是我们希望Wrangler做的。” 解释暗能量 “数据是我们项目最大的挑战,” 德州大学奥斯汀分校天文学家Steve Finkelstein说。他的国家科学基金项目叫做HETDEX,望远镜暗能量实验。这是所尝试的最大的星系研究,科学家们希望绘制超过100万星系的三维地图,在这个过程中会发现上千个新的星系,主要的目标是研究暗能量,使星系分离的神秘的力量。 Wrangler超级计算机 数据密集型超级计算机系统Wrangler正在部署 “每天晚上我们都观察——我们计划至少三年每晚观察——我们计划得到200GB的数据,”Finkelstein说。每六分钟就会测量天光的34000点的频谱。 “Wrangler是我们的解决通道,” Finkelstein说:“随着数据进来,Wrangler有一个小程序寻找新的数据,每六分钟左右的数据进来,就会处理这些数据,天亮的时候Wrangler就会得到全部的数据,发现新的星系。” 在生化资料中的人类起源 Wrangler支持另一个高性能计算的例子是一个称作PaleCore的国家科学基金支持的科学项目。该项目希望利用Wrangler的数据库的敏捷性为科学家建立一个知识库,科学家们可以在所有与人类起源有关的化石挖掘清晰额地理空间信息。这样能结合以前的数字集合方式比如Excel表单和SQL数据库,使用新的数据收集方法比如从手机或ipad上收集实时化石GPS信息。 “我们正在关联开放数据发现一个巨大的机会,” PaleCore项目负责人Denne Reed说。Reed是德州大学奥斯汀分校人类学系副教授。 关联开放数据允许从看似竟然不同的数据的联系中找寻意义。“Wrangler是一个可以完成这些的平台,” Reed说,“它使我们存储大量的数据,无论是照片图像、卫星图像还是与地理空间数据相关的数据等,它还允许我们开始寻找有效的实时链接存储的其他数据的方法。” 科学数据分析 Wrangler的共享内存支持Hadoop和Apache Spark框架的数据分析,“Hadoop是一个现在所有数据科学的流行词语,” Gaffney 说,“这些我们都有,我们还可以配置这个系统,本质上像现在的谷歌搜索引擎在数据中心,最大的区别就是我们在同一时间服务少量用户,这与谷歌是不同的。” 用户以最快的方式向Wrangler存入取出数据,Wrangler连向Internet2,Internet2是向全国大部分其他学术机构每秒提供100千兆字节吞吐量的光纤网络。 除此之外,TACC有工具和技术并行转换他们的数据。“有点像在超级市场,” Gaffney解释道,“如果只开通一个结账通道,最快也只有一个人结账,但如果你进去并且开通15个结账出口,可以分散人流,可以在更少的时间让更多的人通过。” 超级计算机新的用户群体 生物学家、天文学家、能量效率专家和古生物学家仅仅是Wrangler试图吸引的新用户群体的一小部分。 Wrangler比典型的高性能计算更好的网络功能,门户网站允许用户管理系统,并给比如VNC、RStudio和Jupyter Notebooks的网站界面能力以支持更多类似桌面的用户与系统的交互。 “我们科学需要这些更大的系统,” Gaffney说,“我们需要更多种类的系统,我们需要更多种类的用户。这是我们正要推动这些种类门户的地方,我相信这对许多我们现在正要推进的系统将是新的面孔,更多的网络驱动,更多的图解,更少的命令行驱动。” “国家科学基金会与TACC共同分享Wrangler持续的世界领先的吞吐性能的自豪,特殊性的开放科学社区可利用的运营型资源,推动关注数据的研究,”监督NSF奖的项目官员Robert Chadduck说。 Wrangler正在引领数据密集型科学研究中计算问题,“有一些伟大的系统和伟大的研究人员为了改变我们生活的方式和我们生活的世界,正在做一些与数据有关的开创性的非常重要的工作。” Wrangler正在推进分享这些成果,所以每个人都可以看到正在发生什么。
  • 《科技大数据快讯》

    • 来源专题:科技大数据监测服务平台
    • 编译者:dingxq
    • 发布时间:2018-09-19
    • 1. 生物技术领域权威榜单发布 四名华人科学家获评“顶尖转化学者” 近日,生物科技领域的权威期刊《自然-生物技术》发布了2017年度全球20名“顶尖转化学者”榜单,其中包括4名华人科学家,他们是:高光坪教授,卢煜明教授,张锋教授,以及丁胜教授,占总榜单比例达20%。 高光坪(马萨诸塞大学/宾夕法尼亚大学)从事基因治疗研究20余年,特别是在腺相关病毒(AAV)载体的发现与开发领域取得了杰出成就,为基因疗法的开发做出了重要贡献。高光坪在2017年共获得了13项专利。随着基因疗法的兴起,他关于腺相关病毒的专利《AAV's and uses thereof》在2013-2017年间被广泛引用。 卢煜明(香港中文大学)率先发现孕妇外周血中存在胎儿DNA,并以此为基础在无创产前胎儿基因检查方面做出了开拓性贡献。他开发的无创产前检测已用于90多个国家。仅在中国,每年就有超过一百万孕妇接受这项测试。2016年,卢煜明成为首个获得 “未来科学大奖-生命科学奖” 的科学家。 张锋(博德研究所/麻省理工学院)是麻省理工学院历史上最年轻的华人终身教授,在CRIRSPR-Cas基因编辑工具的开发和应用方面做出了开创性贡献。2013-2017年间,在被引用次数最多的5个专利中,张锋教授参与贡献了其中的3项。他的一项利用CRISPR-Cas系统改变基因表达的专利已被引用168次。 丁胜(清华大学/全球健康药物研发中心)现任清华大学药学院院长,全球健康药物研发中心(GHDDI)主任。作为干细胞和再生医学领域的权威专家,他的团队发现和鉴定了一系列能够调控细胞命运和功能的小分子化合物,研究成果已被用于多家生物技术公司的创立,治疗人类疾病。 2. “FAST工程咨询项目”荣获2018年度菲迪克工程奖 9月10日至11日,国际咨询工程师联合会(菲迪克)2018年年会在德国柏林召开。由中国国际工程咨询公司申报的“FAST工程咨询项目”荣获2018年度菲迪克工程奖。这是我国第一个国家重大科技基础设施项目获此殊荣,彰显了我国近年来科技基础设施建设发展水平,对提升国家重大科技基础设施国际影响力具有重要意义。菲迪克工程奖是国际工程咨询领域最高奖项。菲迪克是国际咨询工程师联合会(International Federation of Consulting Engineers,FIDIC)的简称,是全球工程咨询行业权威性的国际非政府组织。500米口径球面射电望远镜(FAST)工程被誉为“中国天眼”,具有自主知识产权,是世界最大单口径、灵敏度最高的射电望远镜。工程从设计、建设到运行,全面贯彻FIDIC理念,大胆创新,确保工程质量,建立了完善的管理体制,注重与环境的协调统一,成为科技与创新相结合、管理与质量相匹配、工程与环境相协调的典范。 3.中国科学家吴宜灿获欧洲聚变核能创新奖 9月16日,欧洲聚变核能创新奖(SOFT InnovationPrize)颁奖典礼在意大利西西里岛贾尔迪尼举行。欧盟委员会能源研究主席Patrick Child为中国科学家吴宜灿颁奖,以表彰其在核能中子物理前沿领域作出的开创性贡献。吴宜灿研究员是该奖项设立以来首位获奖的中国学者,也是首位获此殊荣的亚洲科学家。 在核能系统中,中子被形象地称为“灵魂”,它是产生核热能和引发放射性的源头,切尔诺贝利核事故的发生就是中子导致的链式裂变反应失控造成的。中子的输运行为直接影响着核电站的安全性和经济性,长期以来一直是核能创新研究的关键和首要问题,美欧等主要核大国均投入大量资源开展相关研究。 吴宜灿研究员现任中国科学院核能安全技术研究所所长,是世界著名的核能中子物理科学家。自20世纪80年代开始,他就致力于核能中子物理研究,在核能中子输运的基础理论、关键技术和工程应用等方面取得了重要突破。 他建立了复杂核能系统中子输运理论,攻克了中子输运精准建模与高效求解的世界难题,自主创新研发的中子输运设计与安全评价软件SuperMC打破了国际技术垄断与封锁。目前,SuperMC已经通过了全球规模最大的科技合作项目国际热核聚变实验堆ITER国际组织以及国际经合组织核能署OECD/NEA认证,实现了我国核能软件首次走出国门,在60多个国家获得规模化应用,为ITER等国内外30多个大型核工程项目作出了重要贡献,被评价为“代表了近年来国际中子学领域的主要进展”,相关成果获2016年度国家自然科学奖二等奖。 欧洲聚变核能创新奖由欧盟常设执行机构——欧盟委员会2014年发起设立,在欧盟科技创新计划“地平线2020”(Horizon 2020)框架下,每两年评选一次,旨在全球范围内评选和表彰为聚变领域科技创新作出杰出贡献的科学家。吴宜灿此次获奖为中国聚变界赢得了重要的国际荣誉,显著扩大了我国在世界聚变领域的影响力。 4. 《自然》《科学》等老牌期刊遭11国施压:不开放,不投稿! 最近,来自英国、荷兰、法国、意大利等欧洲11个国家的科研资助机构决定向科学出版商施压,以推动出版商加快向开放获取转变。据报道,由这11个国家促成的联盟每年约有76亿欧元经费,联盟计划要求到2020年,其资助的每篇论文一经发表就免费开放,且不允许论文发表在既收取订阅费用又向单篇论文单独收费的混合期刊上。此举意味着获得这11家资助机构经费的科研人员,必须放弃在《自然》《科学》《细胞》和《柳叶刀》等杂志上发表论文,除非这些期刊改变自己的商业模式。 5. 2017年度中国古生物学十大进展发布 9月17日,中国古生物学会在郑州公布2017年度中国古生物学十大进展评选结果。该评选中国古生物学会理事和分支机构提名推荐,经中国古生物学会第十一届理事会成员和荣誉理事(含院士)组成评审委员会进行评选与审核。十大进展具体为:大量3D翼龙蛋和胚胎首次发现、出版腕足动物化石的“四库全书”、侏罗纪滑翔哺乳形类动物的新发现、发现华南寒武系有口无肛新动物、中国许昌发现晚更新世古老型人类头骨、1.3亿年前早期鸟类化石揭示尾骨与尾羽独立演化、解密最古老树木的生长模式、缅甸琥珀中隐翅虫化石揭示白垩纪蘑菇多样性及最早的社会性寄生、晚二叠世木材蛀孔展示了一个复杂的生态关系网络。 6. 中山大学张力团队鼻咽癌免疫治疗研究获突破 近日,中山大学肿瘤防治中心张力教授团队牵头开展的鼻咽癌免疫治疗研究取得重大突破。相关研究9月11日以快审通道的形式发表于《柳叶刀•肿瘤学》。香港大学教授Dora L W Kwong在同期评论中指出,这是迄今为止在鼻咽癌领域报道免疫治疗疗效最好的研究。张力表示,该研究为复发及转移性鼻咽癌的临床治疗提供了新的方案,未来免疫治疗可能改变鼻咽癌的治疗模式。目前,他的团队正带领全国多家医院进行PD-1单抗在晚期鼻咽癌两线治疗后的注册临床研究及化疗联合PD-1单抗对比化疗的一线适应症研究。 7. 政府部门将不直接管理具体科研项目 日前,《科学技术部职能配置、内设机构和人员编制规定》公开发布。规定明确,科技部将从研发管理向创新服务转变,深入推进科技计划管理改革,建立公开统一的国家科技管理平台,减少科技计划项目重复、分散、封闭、低效和资源配置“碎片化”的现象。政府部门不直接管理具体科研项目,委托项目管理专业机构开展项目受理、评审、立项、过程管理、验收等具体工作。 8. 《科学美国人》联合世界经济论坛,发布2018全球十大新兴技术 9月19日,《科学美国人》与世界经济论坛联合发布了2018年全球十大新兴技术。这份榜单由《科学美国人》、《科学美国人》全球顾问委员会、世界经济论坛全球专家网络、世界未来委员会共同选出,涵盖了生物医疗、化学、计算机、人工智能等领域的最新技术。十大新兴技术具体为:增强现实无处不在(世界即将被数据覆盖)、私人定制的诊断工具(终结千人一药的传统治疗方案)、人工智能辅助化学分子设计(机器学习算法加速新型药物和材料的研发)、会辩论的人工智能(新算法赋予个人设备针对话题学习、辩论的能力)、可植入的制药细胞(直接在病人体内释放药物即将变得可行)、人造肉(不杀生的人造肉正走向你的餐桌)、电刺激医学(神经刺激疗法将替代许多药物治疗慢性病)、基因驱动(改变甚至消灭整个物种的基因工具技术)、等离子激元材料(传感器科技因光控纳米材料正兴起一场革命)、为量子计算机而生的算法(开发者在不断修改程序以适应量子计算机)。 9. 习近平致信祝贺2018世界人工智能大会开幕 2018世界人工智能大会17日在上海开幕。国家主席习近平致信,向大会的召开表示热烈祝贺,向出席大会的各国代表、国际机构负责人和专家学者、企业家等各界人士表示热烈欢迎。习近平强调,中国正致力于实现高质量发展,人工智能发展应用将有力提高经济社会发展智能化水平,有效增强公共服务和城市管理能力。中国愿意在技术交流、数据共享、应用市场等方面同各国开展交流合作,共享数字经济发展机遇。希望与会嘉宾围绕“人工智能赋能新时代”这一主题,深入交流、凝聚共识,共同推动人工智能造福人类。