创新建立在有组织的数据基础之上

《创新建立在有组织的数据基础之上》

来源专题：科技期刊发展智库
编译者： 张恬
发布时间：2024-02-22
美国东部时间 2023年11月8日，SciBite 领导人Joe Mullen博士与人工智能和数据专家一起参加网络研讨会“用于研发的生成式人工智能的危险和陷阱”。这是名为 "创新中的人工智能 "的四部分中的第一部分：专家们探讨了用于研发的生成式人工智能的危险、陷阱和前景。从贫乏的数据到框架问题、RAG 和基于向量的 IR，他们概述了可能使您的人工智能项目脱轨的问题，并回答了关于Elsevier如何许可、提供和更新用于生成式人工智能的数据的问题。

虽然生成式人工智能正在风靡全球，但数据科学的一个更基本的方面却让 Joe Mullen 博士更加兴奋。他说：“人工智能技术来来去去，但基础数据管理却是永恒的。”数据管理井然有序，可以让人快速掌握最新的创新技术，并从中获益——无论是机器学习、大语言模型（LLM）还是其他技术。

来源： FAIR Principles，SciBite 制图

Joe Mullen是SciBite的数据科学与专业服务总监，SciBite是一家语义分析软件公司，于2020年被Elsevier收购。

聚焦问题

“我们坚信数据能促进发现，我们一直致力于应用最新的技术应用来帮助加速科学突破。”Joe Mullen说，“当然，数据不能是任何旧数据，数据需要有出处，因此需要妥善管理。只有这样，您才能做出基于证据的决策，提出假设——这是科学进步的基石。数据必须建立在 FAIR 的基础上：可查找、可访问、可互操作和可重复使用。只有这样，才能真正有所收获。”

Joe Mullen举例指出，SciBite 能够为生命科学领域的研发工作提供支持，如目标优先排序、市场监测、不良事件检测和药物重新定位机会等，“基本上，我们的团队通过最大限度地利用数据帮助客户解决问题。这不仅关系到提高洞察力，还关系到降低客户的准入门槛，使他们能够充分利用我们提供的服务。虽然我们使用最新的机器学习技术来帮助实现这一目标，但这一切都基于这样一种认识，即所有最好的数字战略都建立在强大的数据基础之上。而大量数据正等待着我们去构建和挖掘其价值。”

激发激情

Joe Mullen表示，他总是以解决问题为导向：“我总是着眼于问题，并努力找出解决问题的最佳方法。起初，我对生物学非常感兴趣——了解人体是如何工作的。但在我攻读生物学学位时，一个小模块激发了我对数据分析的深厚感情。”

这种热情促使他完成了硕士学位，然后又取得了博士学位。“我发现，如何将一个充满人类水平噪音的文件加以处理，然后找出潜在的假设，这一点非常吸引人。如今，生成这种假设的技术已经得到了极大的发展。我们分析数据的方式也在不断发展。但归根结底，我们的目标仍然是以尽可能自动化和无缝的方式了解数据能告诉我们什么。”Joe Mullen说。

Joe Mullen拥有语义数据整合方面的博士学位——开发知识图谱以推动现有药物新用途的识别——他是初创公司 SciBite 的最佳人选：“我是作为 13 号被聘用的。“他回忆道，“六年后的今天，我们有大约 80 名员工。作为这个令人难以置信的数据科学团队的一员，我现在有幸领导着这个团队。”

天作之合的结构化数据

“我们一直是一家让客户从数据中获得最大价值的软件公司。”Joe Mullen说，“自从我们被Elsevier收购后（Elsevier拥有数据和数据平台方面的黄金标准），我们能够为客户提供更好的解决方案。SciBite 总是小而灵活。我们总是能够随心所欲地左转或右转，这一点没有太大变化，我们仍然作为一个独立的业务部门运营，但我们之间存在着巨大的协同效应和合作机会，无论是从技术角度还是从业务角度来看，这一切都非常合理。Elsevier不仅拥有数据，还拥有人类的专业知识。人类的专业知识是不会过时的，我非常赞同这样的说法‘人工智能不会取代人类，但拥有人工智能的人类将取代没有人工智能的人类。’”

问：怎样才能获得高质量的数据？答：学科专家

“显然，每个人都拥有大量数据。”Joe Mullen说，“现在，为了理解这些数据，需要学科专家（SMEs）对其进行整理：建立定义和标准——本体论——这样我们才能识别数据中的不同实体，可能是一种药物、一种疾病、一种蛋白质或一种表型。在生命科学领域，我们一直拥有很多中小型企业。现在，Elsevier在化学和工程等其他垂直领域也拥有中小企业，为我们打开了局面。Elsevier因拥有大量这样的中小企业而闻名。这些人深知建立基于 FAIR 数据原则的公共标识符的重要性。是的，技术可以加快这些任务的完成，但你需要人来验证信息。

数据为王

SciBite 保持着初创企业的心态，这与拥有强大的基础数据管理的理念不谋而合。“归根结底，技术可能来来去去，但数据是始终如一的。有了高质量的基础数据管理，就能在下一个最先进的技术出现时，灵活地加以利用”。

大型语言模型（LLM）就是一个很好的例子。当然，其最广为人知的版本 ChatGPT 将数据科学作为一个令人兴奋的领域推向了大众视野。然而，在一个以专业知识为基础的行业中，这种通用的解决方案根本无法发挥作用。Joe Mullen承认，SciBite 围绕组织数据所做的许多工作对某些人来说可能显得枯燥乏味，但这些工作仍然是基础性的。事实上，一旦你把数据整理得井井有条，事情就会变得令人兴奋起来。

令人兴奋的新阶段

“通常，我们现在要处理的是更深层次的科学问题，需要许多不同的证据。”Joe Mullen说：“我们正处于一个令人兴奋的阶段，在这个阶段，我们拥有了基础组件，可以更好地连接多个数据源——可能是Elsevier广泛的数据库、客户内部数据库，也可能是许多开放数据源。”

“但与此同时，客户在研发过程中的每一个环节都需要向监管机构提交资料。因此，你需要确切地知道你是从哪里获得这些假设的——你是从哪里真正识别出这些信息的。”

换句话说，这涉及到科学的试金石：远见、可重复性和透明度——这些都是目前LLM的不足之处：“OpenAI 拒绝透露任何有关 GPT4 的信息，这也是一种讽刺。还有太多问题有待解决。”

透明度就是一切

“但这并不能抹杀 LLM 的潜力，对于某些任务来说，它们已经是一个了不起的工具。”Joe Mullen补充道。

在未来的道路上，他认为LLMs有潜力帮助降低用户探索机器学习算法所发现的所有信息和相互关系的门槛。

“这将是一个大事件：由于 LLM 将自然语言转换为相关的查询语法，客户能够使用自然语言与所有这些数据库进行交互。这将是数据民主化的一大进步。但同样，你也始终需要人在环路中验证信息。”

是的，我们还没有做到这一点。事实上，在某些方面，LLM正在分散人们的注意力。

“太多的人将 LLM 视为全能解决方案。”Joe Mullen说，“我们需要重新调整，将重点重新放在手头的具体问题上。最后，LLM可能是解决方案的一部分，但我们不应该以此为主导。我们需要时间来找出最佳方案。但我们只有通过高质量的数据管理才能做到这一点。然后，我们才能准备好迎接下一个技术突破。”

展开更多

167浏览量

0点赞

原文链接

《通过连接和建立研究基础设施，推进欧洲的食品，营养和健康研究：EuroDISH项目的成果》

《任正非：加大基础研究投入，创新引领科技发展》

《创新建立在有组织的数据基础之上》