《英国BBSRC开展数据密集型生物科学项目调研》

  • 来源专题:生物科技领域知识集成服务
  • 编译者: 陈方
  • 发布时间:2021-03-09
  • 英国BBSRC开展数据密集型生物科学项目调研

    2020年11月20日,英国生物技术和生物科学研究理事会(BBSRC)发表了《数据密集型生物科学综述》报告。在过去十年间,生物科学在研究和创新领域所掌握的数据规模和复杂性经历了一场翻天覆地的变化。BBSRC通过英国生物科学前瞻(Forward Look for UK Bioscience)项目的研究,认识到创新的数据驱动方法是开启生物学新认知和最大限度地利用来自先进技术数据价值的关键途径。这些数据正在为研究人员探索新研究问题,在前沿知识发现方面取得进展,以及应对人类健康、繁荣和可持续未来关键挑战等多个方面创造巨大的机遇。

    随着下一代测序和高分辨率成像等变革性技术的不断发展,生物数据的数量和复杂性不断增加。目前,生物科学研究人员常常依赖于计算机分析和建模方法来“规模化”处理数据,同时也越来越多地受益于数据的获取和重复使用,从而使发现过程大大加速;同时,这也使得研究人员能够探索前所未有的研究问题,在前沿知识发现方面取得重大进展。认识到生物科学研究人员可获得的数据量不断增加所带来的机遇,英国研究与创新组织-生物技术和生物科学研究理事会(UKRI-BBSRC)于2019年启动了一项针对该领域的调查研究,以支持英国的科技长期战略。这篇综述报告即为此项调研的成果之一,它为当代生物科学研究中数据方法的快速普及找到了有力的证据。

    报告针对UKRI-BBSRC支持的数据密集型重点研究项目开展了调研:

    1、提高发展中国家生计的农业系统研究

    负责人:纽卡斯尔大学Marion Pfeifer博士

    该项目获得了全球挑战研究基金(Global Challenges Research Fund)资助,将农业、社会和生态数据相结合,通过量化综合景观管理提高撒哈拉以南非洲热带景观农业的效益,并权衡土地损失和作物遭受虫害增多的可能性。该项目将有利于巩固英国与坦桑尼亚农村农民、农业综合企业、研究人员和政府的长期合作关系,并发现自然栖息地对生物多样性、土壤质量和作物产量有益的分散证据。

    2、深度学习对抗牛结核病

    负责人:苏格兰农业学院Mike Coffey教授

    深度学习是一种强有力的技术,可以从大规模数据中获取新知识。由UKRI-BBSRC支持的该项目将分析来自数千个牛群的数百万份牛奶的光谱数据,并将其与其他的牛结核病(bovine TB, bTB)数据相结合,以准确预测奶牛发生bTB的状况,为这种疾病的早期管理和诊断做出贡献。经估算,这种疾病每年会给英国乳业造成约1.75亿英镑的损失。

    3、微生物组数据驱动建模

    负责人:华威大学Orkun Soyer教授

    厌氧消化是一种利用微生物群落将有机废物转化为甲烷的绿色能源技术。UKRI-BBSRC支持的一项研究正在使用数据驱动的方法来开展动态微生物群的功能分析和建模,目标是更好地控制这些微生物群并提高它们的效率,以及提高生物经济中资源的利用率。

    4、了解大脑的复杂性

    负责人:谢菲尔德大学Daniel Coca教授

    这个名为果蝇大脑观测站(the fruit fly brain observation)的项目获得了UKRI-BBSRC和美国国家科学基金会(NSF)的联合资助,谢菲尔德大学和哥伦比亚大学的研究人员正在共同研究生物基因、大脑结构、功能和行为之间的复杂关系。各种数据类型集成建模正在成为理解生物数据的关键步骤,以及刺激研究的新途径,也成为了人们对生命系统功能认知更加丰富和完整的重要条件。

    5、利用DNA测序技术的新软件

    负责人:诺丁汉大学Matt Loose教授

    可以有效地分析大量数据的新软件使得DNA测序技术得以快速发展。一方面,UKRI-BBSRC支持软件开发,用以分析最新的“长读”纳米孔测序技术产生的数据。另一方面,UKRI-BBSRC还支持自适应采样技术的开发,从而可以从更大的库中对单个分子进行测序,研究人员能够快速、方便地靶向定位较大基因组的单个区域。这一进步将帮助研究人员制备更长更完整的基因组,并将其应用于生物学、环境科学、生物医学等学科。

    6、描绘抗体类别转换机制和功能

    负责人:伦敦国王学院Franca Fraternali教授

    UKRI-BBSRC支持的“更长期更大规模(longer larger)”资助正在研究改变抗体结构恒定区的机制和后果,这对新药或疫苗的设计具有重要意义。免疫学家和计算生物学家之间的跨学科合作,对于解答在不同B细胞状态和相关抗体变化中起作用的分子机制存在巨大差异等问题至关重要。

    7、小麦基因组测序

    负责人:厄勒姆研究所Anthony Hall教授

    UKRI-BBSRC支持的研究人员与国际科学家合作,在编辑和注释全球范围内具有重要农艺意义的小麦基因组方面发挥了重要作用。 了解了这些基因组的序列,使人们能够将小麦用作模型农作物物种,并改变其研究和育种的方式。 重要性状的基因识别和网络控制可将农作物研究者与基础植物科学研究的庞大知识基础联系起来,所产生的大数据集又会加速科学发现过程,并为人们提供满足全球对高产、更可持续、抗病和更健康的小麦新品种不断增长需求的研发工具。

    8、了解基因的集体行为

    负责人:伯明翰大学Constanze Bonifer教授

    在“后基因组学”时代,主要困难是掌握如何协调哺乳动物所有基因的调控以产生特定的细胞类型的途径,这只能采用复杂的数据驱动方法才有可能实现。UKRI-BBSRC支持的血细胞分化研究正在研究转录因子和染色质成分网络是如何调节细胞命定目标的,该项研究对生物学和生物医学都将产生广泛而深远的影响。

    根据调研结果,该报告的编写专家小组向UKRI-BBSRC提出了7项关键建议,以支持生物科学作为数据密集型科学的延续和扩展:(1)UKRI-BBSRC应采取特别行动,提高英国在生物科学领域的数学和计算能力;(2)UKRI-BBSRC应激励培育专业角色,以支撑独立研究机构的数据密集型研究;(3)UKRI-BBSRC应在为生物科学构建统一和协调的数字基础设施方面发挥领导作用;(4)UKRI-BBSRC应大幅增加投资,为研究界提供高质量的软件和数据资源;(5)UKRI-BBSRC应更新数据共享政策,以扩大其覆盖范围并改进其实施效果;(6)UKRI-BBSRC应制定一个计划,通过在关键领域建立网络和战略投资来建设数据密集型生物科学的能力;(7)UKRI-BBSRC应确保其同行评审过程充分嵌入数据密集型研究,并形成一种工作模式。

    郑颖 编译自https://www.ukri.org/wp-content/uploads/2020/11/BBSRC-201120-ReviewOfDataIntensiveBioscience.pdf

    原文标题:Review of Data-Intensive Bioscience.

相关报告
  • 《Wrangler超级计算机加速了大数据:数据密集型超计算机为用户带来了高性能科学计算》

    • 来源专题:宽带移动通信
    • 编译者:gaof
    • 发布时间:2016-05-23
    • 综述: 根据一项特别报道,新型超级计算机Wrangler正帮助研发人员加速大数据发展和取得新发现。超级计算机Wrangler设计的更加用户友好型,用网页驱动的方法实现高性能的计算,包括数据分析。 处理大数据有时候对需要快速和超级计算的研究人员来说就像没有铺平的道路。 “当你处于数据的世界,路上充满了岩石和碰撞,有许多事情需要关心,”前哈勃太空望远镜科学家现在是德克萨斯高级计算中心(TACC)数据密集计算小组的领导的Niall Gaffney如是说。 Gaffney努力使新的超级计算机Wrangler上线,像以前驯服野马的西部牛仔一样,Wrangler驯服的是大数据,比如包含分析成千上万文件的计算问题,这些文件需要快速打开检查并相关分析。 Wrangler填平了由(NSF)美国国家科学基金支持的XSEDE(极端科学和工程发现环境)的超级计算资源的缺陷,XSEDE是先进数字资源的集合,科学家们可以共享这些数字,分析产生于每一个领域研究的大规模数据集。2013年,NSF奖励TACC和它的学术合作伙伴印第安纳大学和芝加哥大学1120万美金,用以建立和经营Wrangler,处理数据密集高性能计算的超级计算机。 Wrangler被设计用来与Stampede超级计算机密切合作的,根据每年两次的500强排名,Stampede超级计算机能力排名第十,并且是奥斯丁德克萨斯大学TACC的旗舰产品。自2013年上线以来,Stampede完成了开放科学600万次计算工作。 “我们保持了与Stampede系统很好的兼容性,” Gaffney说:“但是添加了一些新的东西,比如超大规模闪存系统、超大规模分布式旋转光盘存储系统和高速网络访问,这使得那些有不能被如Stampede和Lonestar系统解决的问题的人能够用他们之前没尝试的方法解决。” Gaffney做了一个对比,Stampede那样的计算机像赛车跑车,神奇的计算引擎最优化以在光滑的跑道上快速前进,另一方面,Wrangler更像是拉力赛车,在没有铺平的崎岖的道路上快速行进。 “如果你开一辆法拉利参加越野赛,会想改变道路,” Gaffney说:“你想改变整辆车组装在一起的方式,即使使用相同的组件,要适合于人们不同的用途。” Wrangler的核心是600兆兆字节的闪存,通过其超过3000个Haswell计算核心PCI(外部控制器接口)互联共享。Gaffney说:“系统的所有部分都可以访问相同的存储空间,他们可以在这些数据上进行并行操作,这些数据存储在这个高速存储系统中,以获得他们在其他地方不能获得的结果。” 这些大量的闪存来自于DSSD,DSSD是由Sun Microsystems的Andy Bechtolsheim联合创立的公司,2015年5月获得了EMC。 Bechtolsheim在TACC的影响追溯到他领导的‘Magnum’无线网络带宽交换机,是为了Stampede的前身已经退役的Ranger超级计算机设计的。 DSSD在CPU和数据之间选择了一个捷径,这一点是比较新颖的,“计算机的大脑直接连接到存储系统,中间没有转接,” Gaffney说:“它实际上允许使用一些你能轻松得到的快速存储器直接计算,两个之间没有问题。” 加速了基因分析途径 Gaffney回想起了科学家们面对OrthoMCL时遇到的问题,OrthoMCL可以分析来自于从看似不相关的物种发现相似的基因血统的DNA序列,问题就是OrthoMCL会像一匹难以驯服的野马一样释放数据。 “它产生了海量的数据,外部运行计算程序,而且必须与这些数据进行交互,” 德州大学奥斯汀分校综合生物学系和计算生物学及生物信息学中心的生物学家Rebecca Young说。她补充道:“这不是Lonestar、Stampede以及其他一些TACC的资源设立的目的。” Young讲述了如何第一次借助网络资源使用OrthoMCL,她只能从10个物种中找出350条类似的基因,“当我在Wrangler上运行OrthoMCL时,我能在这些物种中得到差不多2000个类似的基因,” Young说,“从已经能达到的程度来说这是一个巨大的进步,我们使用OrthoMCL的目的就是允许我们在关注这些4.5亿年进化过程中分离的相异的古老的物种时可以得到越来越多相似的基因。” “现在我们可以在任何地方15分钟到6小时之间完成这些任务了” Gaffney说:“Wrangler改变了游戏规则。” Gaffney补充说快速得到结果使科学家们通过分析大数据探索新的和更深的问题,驱动之前不能得到的发现。 优化建筑的能源效率 美国橡树岭国家实验室(ORNL)计算机科学家Joshua New希望利用Wrangler能力的优势驯服大数据。New是Autotune项目的主要负责人,Autotune项目创建了一个建筑物的软件模型,校准来自不同数据源的超过3000个数据输入,比如费用单,生成一个有用的信息,比如最优的节能改造是什么样的。 “Wrangler有足够的马力,我们在一次运行中可以进行许多大量的研究并得到有用的结果,”New说。他最近使用ORNL的Titan超级计算机进行500000次模拟并在68分钟时间内像磁盘写了45TB数据。他说他想扩展他的参数研究,模拟美国全部的1.251亿个建筑物。 “我认为Wrangler为我们提供了一个特殊的有利可图的市场,我们把我们的分析转向了端对端的流程,在这个流程中我们定义我们想改变的参数,”New说:“它生成了采样矩阵,他生成了输入文件,它计算所有计算上有挑战性的任务,并行运行所有的模拟仿真,它生成了输出,然后我们运行我们的人工智能和统计技术,在后端分析数据,在Wrangler以可靠的流程上自始至终做这些工作是我们非常兴奋的。” 当Gaffney说起Wrangler的存储的时候,说是非常大的数据存储空间——10拍字节基于Lustre的文件系统服务器由TACC托管,印第安纳大学有复制品。“我们希望保存数据,” Gaffney说:“Wrangler系统的建立使数据是首要的部分,在这些数据之间人们进行他们的研究,允许我们紧紧抓住数据,并与他人分享,这些正是我们希望Wrangler做的。” 解释暗能量 “数据是我们项目最大的挑战,” 德州大学奥斯汀分校天文学家Steve Finkelstein说。他的国家科学基金项目叫做HETDEX,望远镜暗能量实验。这是所尝试的最大的星系研究,科学家们希望绘制超过100万星系的三维地图,在这个过程中会发现上千个新的星系,主要的目标是研究暗能量,使星系分离的神秘的力量。 Wrangler超级计算机 数据密集型超级计算机系统Wrangler正在部署 “每天晚上我们都观察——我们计划至少三年每晚观察——我们计划得到200GB的数据,”Finkelstein说。每六分钟就会测量天光的34000点的频谱。 “Wrangler是我们的解决通道,” Finkelstein说:“随着数据进来,Wrangler有一个小程序寻找新的数据,每六分钟左右的数据进来,就会处理这些数据,天亮的时候Wrangler就会得到全部的数据,发现新的星系。” 在生化资料中的人类起源 Wrangler支持另一个高性能计算的例子是一个称作PaleCore的国家科学基金支持的科学项目。该项目希望利用Wrangler的数据库的敏捷性为科学家建立一个知识库,科学家们可以在所有与人类起源有关的化石挖掘清晰额地理空间信息。这样能结合以前的数字集合方式比如Excel表单和SQL数据库,使用新的数据收集方法比如从手机或ipad上收集实时化石GPS信息。 “我们正在关联开放数据发现一个巨大的机会,” PaleCore项目负责人Denne Reed说。Reed是德州大学奥斯汀分校人类学系副教授。 关联开放数据允许从看似竟然不同的数据的联系中找寻意义。“Wrangler是一个可以完成这些的平台,” Reed说,“它使我们存储大量的数据,无论是照片图像、卫星图像还是与地理空间数据相关的数据等,它还允许我们开始寻找有效的实时链接存储的其他数据的方法。” 科学数据分析 Wrangler的共享内存支持Hadoop和Apache Spark框架的数据分析,“Hadoop是一个现在所有数据科学的流行词语,” Gaffney 说,“这些我们都有,我们还可以配置这个系统,本质上像现在的谷歌搜索引擎在数据中心,最大的区别就是我们在同一时间服务少量用户,这与谷歌是不同的。” 用户以最快的方式向Wrangler存入取出数据,Wrangler连向Internet2,Internet2是向全国大部分其他学术机构每秒提供100千兆字节吞吐量的光纤网络。 除此之外,TACC有工具和技术并行转换他们的数据。“有点像在超级市场,” Gaffney解释道,“如果只开通一个结账通道,最快也只有一个人结账,但如果你进去并且开通15个结账出口,可以分散人流,可以在更少的时间让更多的人通过。” 超级计算机新的用户群体 生物学家、天文学家、能量效率专家和古生物学家仅仅是Wrangler试图吸引的新用户群体的一小部分。 Wrangler比典型的高性能计算更好的网络功能,门户网站允许用户管理系统,并给比如VNC、RStudio和Jupyter Notebooks的网站界面能力以支持更多类似桌面的用户与系统的交互。 “我们科学需要这些更大的系统,” Gaffney说,“我们需要更多种类的系统,我们需要更多种类的用户。这是我们正要推动这些种类门户的地方,我相信这对许多我们现在正要推进的系统将是新的面孔,更多的网络驱动,更多的图解,更少的命令行驱动。” “国家科学基金会与TACC共同分享Wrangler持续的世界领先的吞吐性能的自豪,特殊性的开放科学社区可利用的运营型资源,推动关注数据的研究,”监督NSF奖的项目官员Robert Chadduck说。 Wrangler正在引领数据密集型科学研究中计算问题,“有一些伟大的系统和伟大的研究人员为了改变我们生活的方式和我们生活的世界,正在做一些与数据有关的开创性的非常重要的工作。” Wrangler正在推进分享这些成果,所以每个人都可以看到正在发生什么。
  • 《ChatGPT生成虚假数据集以支持科学假设》

    • 来源专题:科技期刊发展智库
    • 编译者:孟美任
    • 发布时间:2024-02-22
    •   《美国医学会眼科学杂志》(JAMA Ophthalmology)于2023年11月9日发表一篇论文,作者使用GPT-4和Python语言模型ADA(Advanced Data Analysis)执行统计分析并实现数据可视化。人工智能生成的数据比较了两种外科手术的结果,并错误地指出一种治疗方法优于另一种。   研究报告的合作者、意大利卡利亚里大学眼科外科医生Giuseppe Giannaccare说:“我们的目的是要强调,在几分钟内,你就可以创建一个没有真实原始数据支持的数据集,而且与现有的证据相比,它站在对立面上。”   人工智能编造令人信服的数据的能力增加了研究人员和期刊编辑对研究完整性的担忧。   加利福尼亚州旧金山的微生物学家兼独立研究诚信顾问Elisabeth Bik说:“生成式人工智能可以生成使用剽窃软件无法检测到的文本,并且它能够创建虚假但逼真的数据集,这就更令人担忧了。这将使任何研究人员或研究小组都能非常容易地对不存在的病人进行虚假检测,对问卷进行虚假回答,或在动物实验中生成大量的数据集”。   作者将这些结果描述为一个“看似真实的数据库”。但经专家检查后发现,这些数据未能通过真实性检查,并含有明显捏造迹象。   手术对比   作者要求 GPT-4和ADA创建一个有关角膜炎患者的数据集,角膜炎会导致角膜变薄,从而影响聚焦和视力。对于15-20%的角膜炎患者来说,治疗方法包括角膜移植手术和穿透性角膜移植手术。第一种方法是穿透性角膜移植术(Penetrating Keratoplasty, PK),通过手术切除所有受损的角膜层,并用捐献者的健康组织替换。第二种方法是深前板层角膜移植术(Deep Anterior Lamellar Keratoplasty, DALK),只替换角膜的前层,保留最内层。   作者指示大型语言模型编造数据,以支持DALK比PK效果更好的结论。为此,他们要求该模型在一项评估角膜形状和检测不规则角膜的成像测试中显示出统计学差异,并显示出试验参与者在手术前后视力的差异。   人工智能生成的数据包括160名男性和140名女性。结果显示,接受DALK手术的人在视力和成像测试中的得分都比接受PK手术的人高,这一结果与真正的临床试验显示的结果不符。   “创建至少表面上可信的数据集似乎很容易。”——英国曼彻斯特大学的生物统计学家Jack Wilkinson说。Wilkinson对检测不真实数据的方法很感兴趣,他检查了几个由大型语言模型早期版本生成的数据集,他说这些数据集在仔细检查时缺乏令人信服的元素,因为它们难以捕捉变量之间的真实关系。   更严密的审查   应Nature新闻团队的要求,Wilkinson和他的同事Zewen Lu使用一种旨在检查真实性的筛选方案对假数据集进行评估。结果显示,术前和术后的视力测量结果与眼成像测试结果之间没有相关性。他们还检查了数据集中的数据分布情况,以检查是否存在非随机模式。眼成像值通过了这一检验,但一些参与者的年龄值以一种在真实数据集中极为罕见的方式聚集在一起(年龄值以7或8结尾的参与者人数过多)。   研究报告的作者承认,只要仔细观察就能发现他们的数据集存在缺陷。但尽管如此,Giannaccare说,“如果你快速查看数据集,就很难识别出数据源的非人类来源。”   EMBO Reports杂志主编Bernd Pulverer也认为这是一个值得关注的问题,“现实中的同行评审通常不会对数据进行全面的重新分析,也不太可能发现人工智能精心设计的完整性漏洞。期刊需要更新质量检查,以识别人工智能生成的合成数据。”   Wilkinson正在开展一个合作项目,设计统计和非统计工具来评估可能存在问题的研究。“人工智能可能是问题的一部分,同样,也可能有基于人工智能的解决方案。我们也许可以自动进行一些检查。人工智能生成技术的进步可能很快就会提供规避这些协议的方法。”Pulverer对此表示同意:“只要知道筛查的目的,人工智能就可以很容易地将这些东西作为武器。”