《创新建立在有组织的数据基础之上》

  • 来源专题:科技期刊发展智库
  • 编译者: 张恬
  • 发布时间:2024-02-22
  •   美国东部时间 2023年11月8日,SciBite 领导人Joe Mullen博士与人工智能和数据专家一起参加网络研讨会“用于研发的生成式人工智能的危险和陷阱”。这是名为 "创新中的人工智能 "的四部分中的第一部分:专家们探讨了用于研发的生成式人工智能的危险、陷阱和前景。从贫乏的数据到框架问题、RAG 和基于向量的 IR,他们概述了可能使您的人工智能项目脱轨的问题,并回答了关于Elsevier如何许可、提供和更新用于生成式人工智能的数据的问题。

      虽然生成式人工智能正在风靡全球,但数据科学的一个更基本的方面却让 Joe Mullen 博士更加兴奋。他说:“人工智能技术来来去去,但基础数据管理却是永恒的。”数据管理井然有序,可以让人快速掌握最新的创新技术,并从中获益——无论是机器学习、大语言模型(LLM) 还是其他技术。

    来源: FAIR Principles,SciBite 制图

      Joe Mullen是SciBite的数据科学与专业服务总监,SciBite是一家语义分析软件公司,于2020年被Elsevier收购。

      聚焦问题

      “我们坚信数据能促进发现,我们一直致力于应用最新的技术应用来帮助加速科学突破。”Joe Mullen说,“当然,数据不能是任何旧数据,数据需要有出处,因此需要妥善管理。只有这样,您才能做出基于证据的决策,提出假设——这是科学进步的基石。数据必须建立在 FAIR 的基础上:可查找、可访问、可互操作和可重复使用。只有这样,才能真正有所收获。”

      Joe Mullen举例指出,SciBite 能够为生命科学领域的研发工作提供支持,如目标优先排序、市场监测、不良事件检测和药物重新定位机会等,“基本上,我们的团队通过最大限度地利用数据帮助客户解决问题。这不仅关系到提高洞察力,还关系到降低客户的准入门槛,使他们能够充分利用我们提供的服务。虽然我们使用最新的机器学习技术来帮助实现这一目标,但这一切都基于这样一种认识,即所有最好的数字战略都建立在强大的数据基础之上。而大量数据正等待着我们去构建和挖掘其价值。”

      激发激情

      Joe Mullen表示,他总是以解决问题为导向:“我总是着眼于问题,并努力找出解决问题的最佳方法。起初,我对生物学非常感兴趣——了解人体是如何工作的。但在我攻读生物学学位时,一个小模块激发了我对数据分析的深厚感情。”

      这种热情促使他完成了硕士学位,然后又取得了博士学位。“我发现,如何将一个充满人类水平噪音的文件加以处理,然后找出潜在的假设,这一点非常吸引人。如今,生成这种假设的技术已经得到了极大的发展。我们分析数据的方式也在不断发展。但归根结底,我们的目标仍然是以尽可能自动化和无缝的方式了解数据能告诉我们什么。”Joe Mullen说。

      Joe Mullen拥有语义数据整合方面的博士学位——开发知识图谱以推动现有药物新用途的识别——他是初创公司 SciBite 的最佳人选:“我是作为 13 号被聘用的。“他回忆道,“六年后的今天,我们有大约 80 名员工。作为这个令人难以置信的数据科学团队的一员,我现在有幸领导着这个团队。”

      天作之合的结构化数据

      “我们一直是一家让客户从数据中获得最大价值的软件公司。”Joe Mullen说,“自从我们被Elsevier收购后(Elsevier拥有数据和数据平台方面的黄金标准),我们能够为客户提供更好的解决方案。SciBite 总是小而灵活。我们总是能够随心所欲地左转或右转,这一点没有太大变化,我们仍然作为一个独立的业务部门运营,但我们之间存在着巨大的协同效应和合作机会,无论是从技术角度还是从业务角度来看,这一切都非常合理。Elsevier不仅拥有数据,还拥有人类的专业知识。人类的专业知识是不会过时的,我非常赞同这样的说法‘人工智能不会取代人类,但拥有人工智能的人类将取代没有人工智能的人类。’”

      问:怎样才能获得高质量的数据?答:学科专家

      “显然,每个人都拥有大量数据。”Joe Mullen说,“现在,为了理解这些数据,需要学科专家(SMEs)对其进行整理:建立定义和标准——本体论——这样我们才能识别数据中的不同实体,可能是一种药物、一种疾病、一种蛋白质或一种表型。在生命科学领域,我们一直拥有很多中小型企业。现在,Elsevier在化学和工程等其他垂直领域也拥有中小企业,为我们打开了局面。Elsevier因拥有大量这样的中小企业而闻名。这些人深知建立基于 FAIR 数据原则的公共标识符的重要性。是的,技术可以加快这些任务的完成,但你需要人来验证信息。

      数据为王

      SciBite 保持着初创企业的心态,这与拥有强大的基础数据管理的理念不谋而合。“归根结底,技术可能来来去去,但数据是始终如一的。有了高质量的基础数据管理,就能在下一个最先进的技术出现时,灵活地加以利用”。

      大型语言模型(LLM)就是一个很好的例子。当然,其最广为人知的版本 ChatGPT 将数据科学作为一个令人兴奋的领域推向了大众视野。然而,在一个以专业知识为基础的行业中,这种通用的解决方案根本无法发挥作用。Joe Mullen承认,SciBite 围绕组织数据所做的许多工作对某些人来说可能显得枯燥乏味,但这些工作仍然是基础性的。事实上,一旦你把数据整理得井井有条,事情就会变得令人兴奋起来。

      令人兴奋的新阶段

      “通常,我们现在要处理的是更深层次的科学问题,需要许多不同的证据。”Joe Mullen说:“我们正处于一个令人兴奋的阶段,在这个阶段,我们拥有了基础组件,可以更好地连接多个数据源——可能是Elsevier广泛的数据库、客户内部数据库,也可能是许多开放数据源。”

      “但与此同时,客户在研发过程中的每一个环节都需要向监管机构提交资料。因此,你需要确切地知道你是从哪里获得这些假设的——你是从哪里真正识别出这些信息的。”

      换句话说,这涉及到科学的试金石:远见、可重复性和透明度——这些都是目前LLM的不足之处:“OpenAI 拒绝透露任何有关 GPT4 的信息,这也是一种讽刺。还有太多问题有待解决。”

      透明度就是一切

      “但这并不能抹杀 LLM 的潜力,对于某些任务来说,它们已经是一个了不起的工具。”Joe Mullen补充道。

      在未来的道路上,他认为LLMs有潜力帮助降低用户探索机器学习算法所发现的所有信息和相互关系的门槛。

      “这将是一个大事件:由于 LLM 将自然语言转换为相关的查询语法,客户能够使用自然语言与所有这些数据库进行交互。这将是数据民主化的一大进步。但同样,你也始终需要人在环路中验证信息。”

      是的,我们还没有做到这一点。事实上,在某些方面,LLM正在分散人们的注意力。

      “太多的人将 LLM 视为全能解决方案。”Joe Mullen说,“我们需要重新调整,将重点重新放在手头的具体问题上。最后,LLM可能是解决方案的一部分,但我们不应该以此为主导。我们需要时间来找出最佳方案。但我们只有通过高质量的数据管理才能做到这一点。然后,我们才能准备好迎接下一个技术突破。”

相关报告
  • 《通过连接和建立研究基础设施,推进欧洲的食品,营养和健康研究:EuroDISH项目的成果》

    • 来源专题:食物与营养
    • 编译者:niexiuping
    • 发布时间:2018-04-02
    • 研究基础设施(RI)对于推动关于食物,营养和健康之间关系的研究至关重要。研究机构将促进创新,并在系统层面提供设计(公共卫生)战略所需的见解,以更有效地应对社会挑战。EuroDISH项目明确提出了在食品和健康领域开发RIs的需求。它表明了一个独特的跨学科和多利益相关者RI的必要性,它涵盖了整个研究领域。 DISH-RI应为研究机构提供服务,以促进网络和社区建设,并提供标准化,互操作性和创新性数据和工具。它应该满足研究领域内部和之间的科学需求,并利用当前的举措。通过向政策制定者和行业提供服务,解锁数据并通过公私合作实现研究洞察力的实现,也可以创造附加价值。这些服务(如所有权)的治理以及RI本身的集中和分散活动(例如灵活性,创新)需要组织起来,并与公私合作伙伴的不同利益相一致。
  • 《任正非:加大基础研究投入,创新引领科技发展》

    • 来源专题:科技大数据监测服务平台
    • 编译者:zhoujie
    • 发布时间:2020-08-31
    • 7月29日至31日,华为公司创始人、CEO任正非带队访问上海交通大学、复旦大学、东南大学和南京大学。访问期间,他就基础研究、产学研结合、科研创新和人才培养等问题谈了自己的看法。 ■ 华为为何要搞基础研究? 信息技术的发展速度太快了,传统的产学研模式赶不上市场需求的发展速度。因此华为公司也进行了一些基础理论的研究,大多数是在应用理论的范畴,只有少量的走在世界前面去了。 大学老师的研究是为理想而奋斗,目标长远,他们的研究是纯理论要素研究。例如,土耳其Arikan教授一篇数学论文,十年后变成5G的“熊熊大火”;上世纪六十年代初,苏联科学家彼得·乌菲姆采夫发表的一篇“钻石切面可以散射无线电波”的论文,20年后美国造出了隐身的F22战斗机;上世纪五十年代,中国科学院吴仲华教授的三元流动理论对喷气式发动机的等熵切面计算法,奠基了今天的航空发动机产业;现代化学分子科学的进步,人类合成材料可能由计算机进行分子编辑来完成,这也是一个翻天覆地的技术变化。 ▲ 华为方舟实验室(资料图) 高校的“明灯”照耀着产业,大学老师的纯研究看得远、钻得深;华为公司的研究实用度强。在我们之间的合作中,你们给我们带来方向,照亮了我们。华为公司的基础研究是围绕商业目的的,比较贴近近期的实用化,我们给你们带来客户需求以及行业所面临的世界级难题,知道这个方程的价值与应用,相互之间都是有益的。合作使我们早一些知晓世界的发展动向,缩短了商品化的时间,我们能超前世界,就会获得更好的机会。 ■ “校企合作要松耦合,不能强耦合。” 高校的目的是为理想而奋斗,为好奇而奋斗;企业是现实主义的,有商业“铜臭”的,强耦合是不会成功的。强耦合互相制约,影响各自的进步。“强耦合你拖着我,我拽着你,你走不到那一步,我也走不到另一步。因此,必须解耦,以松散的方式合作。” ■ “求生欲使我们振奋起来,寻找自救的道路。” 在“灯塔”的照耀下,整个世界都加快了脚步,今天技术与经济的繁荣与英、美、日、俄、欧洲当年的技术灯塔作用是分不开的。我们要尊重这些国家,尊重作出贡献的先辈。孔子都过去两千多年了,我们还不是在尊孔吗?不管这些专利保护是否已经过期,先贤是值得尊重的。 我们公司也曾想在突进“无人区”后作些贡献,以回报社会对我们的引导,也想点燃5G这个“灯塔”,但刚刚擦燃“火柴”,美国就一个“大棒”打下来,把我们打昏了,开始还以为我们合规系统出了什么问题,在反思;结果第二棒、第三棒、第四棒打下来,我们才明白美国的一些政治家希望我们死。 求生的欲望使我们振奋起来,寻找自救的道路。无论怎样,我们永远不会忌恨美国,那只是一部分政治家的冲动,不代表美国企业、美国的学校、美国社会。我们仍然要坚持自强、开放的道路不变。你要真正强大起来,就要向一切人学习,包括自己的敌人。 ■ “中国的未来与振兴要靠孩子,靠孩子唯有靠教育。” 人类社会的下一个文明是什么?还会不会产生一个类似汽车、信息产业这样的产业?我说的“汽车”是泛指,包括飞机、轮船、火车、拖拉机、自行车;“信息产业”也不仅指电子工业、电信互联网、人工智能。 未来技术世界的不可知,就如一片黑暗中,需要灯塔。点燃未来灯塔的责任无疑是要落在高校上,教育要引领社会前进。对未来的不确定性,认识它的艰难,应对这种不确定性,除了给科研更多一些自由、对失败更多一些宽容外,应对不确定性的确定可以从孩子们的教育抓起,中国的未来与振兴要靠孩子,靠孩子唯有靠教育。 多办一些学校,实行差别教育,启发他们的创新精神,就会一年比一年有信心,一年一年地逼近未来世界的大门。二、三十年后,他们正好为崛起而冲锋陷阵,他们不是拿着机关枪,而是拿着博士的笔。我今天看见你们这么多人坐着冷板凳,研究出这么多理论与技术成果,出了这么多优秀的人才,我很兴奋,相信我们国家在二、三十年以后或者五、六十年之后,一定会大有作为的,为人类作出更大的贡献,希望寄托在你们身上。 ▲ 任正非(资料图) ■ “我们需要创新,找到一个一个的机会点。” 我们需要创新,找到一个一个的机会点。如果我们把英国工业革命的指数定为100的话,美国今天是150,我国是70,中国缺的30是原创,原创需要更严格的知识产权保护。没有原创就会陷入中等收入陷阱,房屋、汽车都会饱和的,饱和以后如何发展?不发展,一切社会问题都会产生。 我们公司过去是依托全球化平台,集中精力十几年攻击同一个“城墙口”,取得了一点成功。我们过去的理论基地选在美国,十几年前加大了对英国和欧洲的投入,后来又增加了日本、俄罗斯的投入。美国将我们纳入实体清单后,我们把对美国的投资转移到俄罗斯,加大了俄罗斯的投入,扩大了俄罗斯的科学家队伍,提升了俄罗斯科学家的工资。 我们希望十年、二十年后,我国的大学担负起追赶世界理论中心的担子来。我们国家有几千年儒家文化的耕读精神,现在年轻妈妈最大的期望是教育孩子,想学习、想刻苦学习,这都是我们这个民族的优良基础,我们是有希望的,中国是可以有更大作为的。 本文来源:上海交通大学、复旦大学、新闻联播