《Science Navigator 对话式文献知识库正式发布!AI for Science基础设施建设再添基石》

  • 来源专题:数智化图书情报
  • 编译者: 黄雨馨
  • 发布时间:2023-06-17
  • 作为科研工作者,文献的阅读在日常工作中是不可或缺的重要部分,据美国国家科学基金会统计,科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%。从最传统的查阅式检索,到后来基于搜索引擎的搜索式检索,再到现在GPT问答式检索,亟需更好用的工具。5月30日,由科技部主办,中国科学技术信息研究所、北京科学智能研究院、北京智源人工智能研究院联合承办的 “2023中关村论坛-人工智能驱动的科学研究”平行论坛顺利举办。在本场论坛上,北京科学智能研究院、中国科学院计算机网络信息中心、墨奇科技联合发布了一款对话式的文献知识库 Science Navigator,大大提升文献的检索、阅读、分析及管理效率,进一步助力科研人员提升科研生产力,让科研工作者释放更多的时间精力在解决关键问题与创新思考上,此成果的发布也为AI for Science基础设施建设再添基石。中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心主任鄂维南在论坛中强调,“推动科学研究从“作坊模式”向“平台模式”转变,需要集中力量解决共性问题,构建 AI for Science 创新基座,在科研范式大变革中,这些是推动 AI for Science 发展的关键及核心。”文献是支撑各学科科研工作者研究决策的知识体系与宝库,为提升创新效能,有机地将科学家们的集体智慧充分提取出来,构建易用性强、准确率高的文献的数据库与知识库,是AI for Science发展的基础设施底座之一。科学文献大多为非结构化数据,且专业属性极强,各个领域的文献呈现爆炸式增长,更新速度快。即使大语言模型(LLM)技术的兴起深刻影响着众多行业领域,科研场景也不例外,但大语言模型本身仍存在着不可解释性、对于较为细分的领域知识难以快速覆盖等问题。墨奇科技自研的向量数据库与大语言模型的二者优势融合,就极大程度上克服了这些缺陷。已有实验证明,我们能够为大模型提供比较有力的事实支撑的情况下,它能解决幻觉和数据滞后的问题,但有效的事实支撑又依赖于比较长的文本或者是Token的输入,所以如何在缓存这一阶段解决大语言模型的限制就成了关键,引入向量数据库就是在为大模型提供有效的记忆载体。Science Navigator用更低的计算成本,通过对百万篇文献进行向量化,并在向量数据库中存储和建立索引,实现高效的语义搜索和相似度计算,结合LLM的任务泛化及生成能力,让科研工作者能够通过对话式交互,以提问的聊天形式,更快速便捷、更专业精准、个性化地从领域内海量的文献中获得自己需要的知识与信息。相较于传统检索方法只能返回精确匹配的文献本身,Science Navigator可实现多模态交互。且该文献知识库覆盖了多个学科,如物理学、化学、材料科学、计算机科学等,已收录了百万篇高质量的科学文献,为科研人员提供了一个强大的知识信息资源和智能助手,轻松进行查找、阅读、对比分析、总结等需求,并同时支持中英文提问回答方式,未来还将拓展至生命科学、人文学科等更多领域千万篇高质量文献。Science Navigator 中墨奇数据库在向量计算上表现优异,10万篇论文载入时间30min,向量查询时延可低至25ms,且数据的运算成本以 10 倍计降低。同时 Science Navigator 中构建的实验方法知识库,利用大语言模型和向量数据库技术,从海量的科学文献中自动抽取、整理、归纳和表示实验方法的相关信息,包括实验目的、原理、步骤、参数、结果、评价等,实现对实验方法的快速检索、比较、优化和推荐,以及对实验结果的自动分析、评估和总结。未来,利用知识库与实验仪器自动化系统进行对接,可实现对实验仪器的智能控制和调节,以适应不同的实验需求和条件,为实验自动化提供强有力的支撑。“向量数据库技术让大模型更高效率、更低成本的存储和读取专业领域知识,通过向量数据库给大模型动态更新数据,也满足文献快速迭代的实际情况”。墨奇科技副总裁孟卓飞介绍道,“目前我们的向量数据库技术可支持人工智能场景下的千亿级非结构化数据分析,可以有效地在海量非结构化数据的文献数据中发挥价值,实现快速分析文献信息,真正实现了“多、快、好、省”的AI for Science时代下的科学文献智能处理与分析模式。不仅在科研场景,向量数据库技术也可在金融、法律、咨询、教育等知识密集型场景体现其优势。”“希望 Science Navigator 能成为万物与模型之间的桥梁,成为科研领域的数据枢纽”孟卓飞说道,从AI4Science到AI4Knowledge,大语言模型+向量数据库的解决方案对包括金融、资讯、法律在内的知识密集型产业都可以提供强有力且通用性的支撑,让知识检索从面向数据库和检索工具,向下一个自然语言交互的对话时代发展。未来,文献知识库最终的用户可能从现有的人类用户发展到机器用户,借助对话机器人辅助思考,让我们的提问变得自动化。机器可以拆解我们提出的方向性问题,提出质疑点、设计论据,然后进行实验设计,再搜寻实验结论或者进行实验模拟,通过结果进行问题的反思推导和迭代,通过这样一套流程更进一步地释放科研人员的精力。AI for Science高速向前的发展,将为科学研究带来更多新方法与新工具,为领域内解决基础的共性问题,为产业应用的实际场景提供科学研究的基础设施,相信将在材料科学、能源行业、药物研发等方向上带来巨大变革,提升创新效能,创造应用效益。目前Science Navigator已经开放内测,大家可以通过邮箱contact@bjaisi.com进行申请。


  • 原文来源:https://mp.weixin.qq.com/s/EohpV8RI-UrD18Sm-5dUJg
相关报告
  • 《共建AI4S基础设施(三):替代文献的数据库与知识库》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-10
    • 无论哪一个学科,文献对于科研工作都是必不可少的,它可以帮助科研人员了解前沿动态和最新成果,学习相关知识和技术,激发创新和灵感,验证理论和实验,同时也是促进学术交流的载体。然而,科研文献更新速度快,数量呈现出爆炸式的增长,如何有效地管理和利用海量的文献资源,成为了科研人员面临的一个迫切的问题。据美国国家科学基金会统计,科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%。 近年来信息技术的飞跃,带来了各种文献搜索引擎如 Google Scholar、CNKI ,学术社交网络 ResearchGate、Academia.edu 等平台可以帮助用户快速找到相关领域的专家和研究成果,EndNote、Zotero 等可以帮助用户管理学术文献,GPT问答式检索的出现翻开文献查找新篇章。即便如此,已有工具仍存在功能单一或不完善、难以与其他的软件或平台进行对接集成,操作方式不简便,需要学习教程等问题。 构建AI for Science基础设施的目标之一就是集中力量解决共性问题,文献是支撑各学科科研工作者研究决策的知识体系,为提升创新效能,有机地将科学家们的集体智慧充分提取出来,构建易用性强、准确率高的替代文献的数据库与知识库,成为AI for Science基础设施建设方向之一。 对于自然科学研究来说,虽然GPT的出现在一定程度上增加了文献查阅的便捷性,但不完全适用于学术性问答的交互,存在局限性。科学文献大多为非结构化数据,且专业属性极强,各个领域的文献更新速度快。由于大模型的结构特点,每一次重新训练的成本都是非常高昂的,怎样让最新的数据高效的覆盖进来也是目前面临的重大问题。 将大语言模型与数据库相结合,可以通过对大量文本数据进行训练来生成语言模型,然后可以将这个模型与数据库结合使用,以便对数据库中的文本数据进行自然语言处理和语义分析。这种结合可以帮助提高数据库的查询和分析能力,从而更好地满足用户的需求。例如,可以使用大语言模型来自动化生成数据库查询语句,或者使用大语言模型来识别和提取数据库中的实体、关系和事件等信息,以便给用户更加智能化和个性化的查询分析服务。 类似这样的场景已经逐步实现:科研人员通过自然语言方式询问“我想知道最近一个月内被提及最多次的技术是什么”,“我想知道最近一个月内人工智能领域发表的论文中出现频率最高的技术是什么”,“删除最近一个月内指标低于 XX 的实验数据”,平台以对话形式返回结果或对数据进行相应操作,极大提高了数据管理的效率。 此外,还可以构建文献推荐系统,通过学习用户的历史行为和偏好,然后将这些信息用于预测用户可能需要关注的文献,并将这些预测结果与数据库中的数据进行匹配,从而提供用户最符合其需求的推荐结果。大语言模型结合向量数据库的方式,还可以加快大批量论文载入时间,降低数据的运算成本。 相较于传统检索方法只能返回精确匹配的文献本身,构建替代文献的知识库与平台工具,可实现多模态交互,并同时支持中英文提问回答方式,将为科研人员提供一个强大的知识信息资源和智能助手,轻松进行查找、阅读、对比分析、总结等需求。 科研数据不仅局限于文献文本,实验方法数据、结果数据、文献中的图表也是重要的数据来源。这也引发了构建实验方法知识库的需求。从海量的科学文献中自动抽取、整理、归纳和表示实验方法的相关信息,包括实验目的、原理、步骤、参数、结果、评价等,实现对实验方法的快速检索、比较、优化和推荐,以及对实验结果的自动分析、评估和总结。比如在合成化学领域,建立合成化学文献的附录,描述已有实验的步骤和结果。通过结构化查询,我们可以将其转化为合成化学实验知识库或数据库,开发人工智能算法进行对比分析,自动给出最佳合成化学路径的建议。利用知识库与实验仪器自动化系统进行对接,来实现对实验仪器的智能控制和调节,以适应不同的实验需求和条件,为实验自动化提供强有力的支撑。 未来,文献知识库最终的用户可能从现有的人类用户发展到机器用户,借助对话机器人辅助思考,让我们的提问也变得自动化。机器可以拆解我们提出的方向性问题,提出质疑点、设计论据,然后进行实验设计,再搜寻实验结论或者进行实验模拟,通过结果进行问题的反思推导或迭代实验设计方案,通过这样一套流程更进一步地提效,也打通了与另一个AI4S基础设施“高精度、高效率的实验系统”的连接。 不仅在自然科学,包括金融、资讯、法律在内的知识密集型产业都可以构建文献知识库,以提供强有力且通用性的支撑,让知识检索从面向数据库和检索工具,向下一个自然语言交互的对话时代发展。 相信,通过建设“替代文献的数据库与知识库”这一重要的AI for Science基础设施,将大大提升文献的检索、阅读、分析及管理效率,进一步助力科研人员提升科研生产力,让科研工作者释放更多的时间精力在解决关键问题与创新思考上。
  • 《欧盟发布《让科学发生:欧洲研究区研究基础设施的新目标》》

    • 来源专题:重大科技基础设施领域知识集成服务平台
    • 编译者:魏韧
    • 发布时间:2021-03-16
    • 2020年10月,欧洲科研基础设施战略论坛(ESFRI)发布《让科学发生:欧洲研究区研究基础设施的新目标》白皮书(MAKING SCIENCE HAPPEN A new ambition for Research Infrastructures in the European Research Area)。文件指出,在研究基础设施领域,ESFRI成功实现了欧洲研究区(ERA)制定的初始目标,欧洲现已形成确定新的具有潜力的投资重点、研发新设备的有效机制,并全面建成研究基础设施景观。 科学的重要使命是引领经济、社会和环境转型并为做好必要的准备。欧洲研究基础设施是实现科研突破、促进技术创新的关键。重振欧洲研究区将是完成这项任务的关键。ESFRI考虑如何促进欧洲研究基础设施体系的进一步发展,使其有效地支持研究和创新,实现欧洲更长远的政策目标。 ESFRI需要进一步优化研究基础设施景观:1)促进跨学科研究,开发数据互操作,催生新学科应对新的社会挑战,为实现可持续发展目标做出贡献;2)使各国和欧洲的各种资金更有效地协同合作,寻找投资方向;3)使研究基础设施更好地融入主办国的社会发展;4)不断提升服务的现代化程度,支持欧洲优先事项;5)强化欧洲在全球事业中的领导地位。 为建设更强大的欧洲需要做到以下几点:1)强化研究基础设施作为欧洲研究区重要支柱的地位,形成健康、可持续、一体化的研究基础设施生态环境,致力于产出具有影响力的科研成果,提供跨国服务,支持教育和技能的开发。2)增强研究基础设施作为跨部门战略投资的作用,参与欧洲战略议程,使欧洲的研究与创新能够应对紧迫且复杂的社会挑战。3)开发和利用欧洲研究基础设施作为知识与创新中心的潜力,融入当地社区,成为欧洲竞争力的基础,产生区域性和全球影响力。4)进一步增强各地区、国家乃至整个欧洲在研究基础设施开发和投资优先事项以及政策方面的一致性。5)挖掘研究基础设施作为开放科学主要推动者的潜力,提供满足FAIR原则和质量认证的开放数据,支持欧洲开放科学云的发展壮大,提高为用户服务的能力。6)更好地利用ESFRI的潜能,确保其具备的适当能力为欧洲制定一致的研究基础设施政策和投资做出贡献。