《创新建立在有组织的数据基础之上》

  • 来源专题:科技期刊发展智库
  • 编译者: 张恬
  • 发布时间:2024-02-22
  •   美国东部时间 2023年11月8日,SciBite 领导人Joe Mullen博士与人工智能和数据专家一起参加网络研讨会“用于研发的生成式人工智能的危险和陷阱”。这是名为 "创新中的人工智能 "的四部分中的第一部分:专家们探讨了用于研发的生成式人工智能的危险、陷阱和前景。从贫乏的数据到框架问题、RAG 和基于向量的 IR,他们概述了可能使您的人工智能项目脱轨的问题,并回答了关于Elsevier如何许可、提供和更新用于生成式人工智能的数据的问题。

      虽然生成式人工智能正在风靡全球,但数据科学的一个更基本的方面却让 Joe Mullen 博士更加兴奋。他说:“人工智能技术来来去去,但基础数据管理却是永恒的。”数据管理井然有序,可以让人快速掌握最新的创新技术,并从中获益——无论是机器学习、大语言模型(LLM) 还是其他技术。

    来源: FAIR Principles,SciBite 制图

      Joe Mullen是SciBite的数据科学与专业服务总监,SciBite是一家语义分析软件公司,于2020年被Elsevier收购。

      聚焦问题

      “我们坚信数据能促进发现,我们一直致力于应用最新的技术应用来帮助加速科学突破。”Joe Mullen说,“当然,数据不能是任何旧数据,数据需要有出处,因此需要妥善管理。只有这样,您才能做出基于证据的决策,提出假设——这是科学进步的基石。数据必须建立在 FAIR 的基础上:可查找、可访问、可互操作和可重复使用。只有这样,才能真正有所收获。”

      Joe Mullen举例指出,SciBite 能够为生命科学领域的研发工作提供支持,如目标优先排序、市场监测、不良事件检测和药物重新定位机会等,“基本上,我们的团队通过最大限度地利用数据帮助客户解决问题。这不仅关系到提高洞察力,还关系到降低客户的准入门槛,使他们能够充分利用我们提供的服务。虽然我们使用最新的机器学习技术来帮助实现这一目标,但这一切都基于这样一种认识,即所有最好的数字战略都建立在强大的数据基础之上。而大量数据正等待着我们去构建和挖掘其价值。”

      激发激情

      Joe Mullen表示,他总是以解决问题为导向:“我总是着眼于问题,并努力找出解决问题的最佳方法。起初,我对生物学非常感兴趣——了解人体是如何工作的。但在我攻读生物学学位时,一个小模块激发了我对数据分析的深厚感情。”

      这种热情促使他完成了硕士学位,然后又取得了博士学位。“我发现,如何将一个充满人类水平噪音的文件加以处理,然后找出潜在的假设,这一点非常吸引人。如今,生成这种假设的技术已经得到了极大的发展。我们分析数据的方式也在不断发展。但归根结底,我们的目标仍然是以尽可能自动化和无缝的方式了解数据能告诉我们什么。”Joe Mullen说。

      Joe Mullen拥有语义数据整合方面的博士学位——开发知识图谱以推动现有药物新用途的识别——他是初创公司 SciBite 的最佳人选:“我是作为 13 号被聘用的。“他回忆道,“六年后的今天,我们有大约 80 名员工。作为这个令人难以置信的数据科学团队的一员,我现在有幸领导着这个团队。”

      天作之合的结构化数据

      “我们一直是一家让客户从数据中获得最大价值的软件公司。”Joe Mullen说,“自从我们被Elsevier收购后(Elsevier拥有数据和数据平台方面的黄金标准),我们能够为客户提供更好的解决方案。SciBite 总是小而灵活。我们总是能够随心所欲地左转或右转,这一点没有太大变化,我们仍然作为一个独立的业务部门运营,但我们之间存在着巨大的协同效应和合作机会,无论是从技术角度还是从业务角度来看,这一切都非常合理。Elsevier不仅拥有数据,还拥有人类的专业知识。人类的专业知识是不会过时的,我非常赞同这样的说法‘人工智能不会取代人类,但拥有人工智能的人类将取代没有人工智能的人类。’”

      问:怎样才能获得高质量的数据?答:学科专家

      “显然,每个人都拥有大量数据。”Joe Mullen说,“现在,为了理解这些数据,需要学科专家(SMEs)对其进行整理:建立定义和标准——本体论——这样我们才能识别数据中的不同实体,可能是一种药物、一种疾病、一种蛋白质或一种表型。在生命科学领域,我们一直拥有很多中小型企业。现在,Elsevier在化学和工程等其他垂直领域也拥有中小企业,为我们打开了局面。Elsevier因拥有大量这样的中小企业而闻名。这些人深知建立基于 FAIR 数据原则的公共标识符的重要性。是的,技术可以加快这些任务的完成,但你需要人来验证信息。

      数据为王

      SciBite 保持着初创企业的心态,这与拥有强大的基础数据管理的理念不谋而合。“归根结底,技术可能来来去去,但数据是始终如一的。有了高质量的基础数据管理,就能在下一个最先进的技术出现时,灵活地加以利用”。

      大型语言模型(LLM)就是一个很好的例子。当然,其最广为人知的版本 ChatGPT 将数据科学作为一个令人兴奋的领域推向了大众视野。然而,在一个以专业知识为基础的行业中,这种通用的解决方案根本无法发挥作用。Joe Mullen承认,SciBite 围绕组织数据所做的许多工作对某些人来说可能显得枯燥乏味,但这些工作仍然是基础性的。事实上,一旦你把数据整理得井井有条,事情就会变得令人兴奋起来。

      令人兴奋的新阶段

      “通常,我们现在要处理的是更深层次的科学问题,需要许多不同的证据。”Joe Mullen说:“我们正处于一个令人兴奋的阶段,在这个阶段,我们拥有了基础组件,可以更好地连接多个数据源——可能是Elsevier广泛的数据库、客户内部数据库,也可能是许多开放数据源。”

      “但与此同时,客户在研发过程中的每一个环节都需要向监管机构提交资料。因此,你需要确切地知道你是从哪里获得这些假设的——你是从哪里真正识别出这些信息的。”

      换句话说,这涉及到科学的试金石:远见、可重复性和透明度——这些都是目前LLM的不足之处:“OpenAI 拒绝透露任何有关 GPT4 的信息,这也是一种讽刺。还有太多问题有待解决。”

      透明度就是一切

      “但这并不能抹杀 LLM 的潜力,对于某些任务来说,它们已经是一个了不起的工具。”Joe Mullen补充道。

      在未来的道路上,他认为LLMs有潜力帮助降低用户探索机器学习算法所发现的所有信息和相互关系的门槛。

      “这将是一个大事件:由于 LLM 将自然语言转换为相关的查询语法,客户能够使用自然语言与所有这些数据库进行交互。这将是数据民主化的一大进步。但同样,你也始终需要人在环路中验证信息。”

      是的,我们还没有做到这一点。事实上,在某些方面,LLM正在分散人们的注意力。

      “太多的人将 LLM 视为全能解决方案。”Joe Mullen说,“我们需要重新调整,将重点重新放在手头的具体问题上。最后,LLM可能是解决方案的一部分,但我们不应该以此为主导。我们需要时间来找出最佳方案。但我们只有通过高质量的数据管理才能做到这一点。然后,我们才能准备好迎接下一个技术突破。”

相关报告
  • 《美国国家科学基金会: 建立数据科学的智囊团》

    • 来源专题:网络信息技术发展趋势扫描服务
    • 编译者:王园
    • 发布时间:2015-12-02
    • 美国国家科学基金会(NSF)发布新报告称:访问、分析大量数据并从中产生深刻见解的能力已经驱动了从医药到制造各个领域的创新,它为我们的生活带来了更高的效率和更高的质量。为了加快这一新兴领域的发展,NSF宣布成立四个总计超过500万美金的奖项来为数据科学创新建立区域性Hub。成员由来自哥伦比亚大学 (东北部Hub)、乔治亚理工大学和北卡罗莱纳大学 (南部Hub)、伊利诺伊大学香槟分校(中西部Hub)和加利福尼亚大学圣地亚哥分校、伯克利分校和华盛顿大学(西部Hub)的顶级数据科学家共同组成。超过250个组织承诺随着时间的推移将会进一步拓展,这些组织来自大学和城市,以及基金会和财富500强企业,覆盖了50个州。该奖项构建在2012年美国国家大数据研究和发展计划的基础上,是通过大数据区域性创新Hub (BD Hubs)计划设立的,该计划为学术界、工业界和政府之间的多部门协作构建了一个新的框架。由这些Hub构成的“大数据智囊团”将构想、计划和支持区域性大数据合作,以解决区域性挑战。
  • 《通过连接和建立研究基础设施,推进欧洲的食品,营养和健康研究:EuroDISH项目的成果》

    • 来源专题:食物与营养
    • 编译者:niexiuping
    • 发布时间:2018-04-02
    • 研究基础设施(RI)对于推动关于食物,营养和健康之间关系的研究至关重要。研究机构将促进创新,并在系统层面提供设计(公共卫生)战略所需的见解,以更有效地应对社会挑战。EuroDISH项目明确提出了在食品和健康领域开发RIs的需求。它表明了一个独特的跨学科和多利益相关者RI的必要性,它涵盖了整个研究领域。 DISH-RI应为研究机构提供服务,以促进网络和社区建设,并提供标准化,互操作性和创新性数据和工具。它应该满足研究领域内部和之间的科学需求,并利用当前的举措。通过向政策制定者和行业提供服务,解锁数据并通过公私合作实现研究洞察力的实现,也可以创造附加价值。这些服务(如所有权)的治理以及RI本身的集中和分散活动(例如灵活性,创新)需要组织起来,并与公私合作伙伴的不同利益相一致。