作为科研工作者,文献的阅读在日常工作中是不可或缺的重要部分,据美国国家科学基金会统计,科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%。从最传统的查阅式检索,到后来基于搜索引擎的搜索式检索,再到现在GPT问答式检索,亟需更好用的工具。5月30日,由科技部主办,中国科学技术信息研究所、北京科学智能研究院、北京智源人工智能研究院联合承办的 “2023中关村论坛-人工智能驱动的科学研究”平行论坛顺利举办。在本场论坛上,北京科学智能研究院、中国科学院计算机网络信息中心、墨奇科技联合发布了一款对话式的文献知识库 Science Navigator,大大提升文献的检索、阅读、分析及管理效率,进一步助力科研人员提升科研生产力,让科研工作者释放更多的时间精力在解决关键问题与创新思考上,此成果的发布也为AI for Science基础设施建设再添基石。中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心主任鄂维南在论坛中强调,“推动科学研究从“作坊模式”向“平台模式”转变,需要集中力量解决共性问题,构建 AI for Science 创新基座,在科研范式大变革中,这些是推动 AI for Science 发展的关键及核心。”文献是支撑各学科科研工作者研究决策的知识体系与宝库,为提升创新效能,有机地将科学家们的集体智慧充分提取出来,构建易用性强、准确率高的文献的数据库与知识库,是AI for Science发展的基础设施底座之一。科学文献大多为非结构化数据,且专业属性极强,各个领域的文献呈现爆炸式增长,更新速度快。即使大语言模型(LLM)技术的兴起深刻影响着众多行业领域,科研场景也不例外,但大语言模型本身仍存在着不可解释性、对于较为细分的领域知识难以快速覆盖等问题。墨奇科技自研的向量数据库与大语言模型的二者优势融合,就极大程度上克服了这些缺陷。已有实验证明,我们能够为大模型提供比较有力的事实支撑的情况下,它能解决幻觉和数据滞后的问题,但有效的事实支撑又依赖于比较长的文本或者是Token的输入,所以如何在缓存这一阶段解决大语言模型的限制就成了关键,引入向量数据库就是在为大模型提供有效的记忆载体。Science Navigator用更低的计算成本,通过对百万篇文献进行向量化,并在向量数据库中存储和建立索引,实现高效的语义搜索和相似度计算,结合LLM的任务泛化及生成能力,让科研工作者能够通过对话式交互,以提问的聊天形式,更快速便捷、更专业精准、个性化地从领域内海量的文献中获得自己需要的知识与信息。相较于传统检索方法只能返回精确匹配的文献本身,Science Navigator可实现多模态交互。且该文献知识库覆盖了多个学科,如物理学、化学、材料科学、计算机科学等,已收录了百万篇高质量的科学文献,为科研人员提供了一个强大的知识信息资源和智能助手,轻松进行查找、阅读、对比分析、总结等需求,并同时支持中英文提问回答方式,未来还将拓展至生命科学、人文学科等更多领域千万篇高质量文献。Science Navigator 中墨奇数据库在向量计算上表现优异,10万篇论文载入时间30min,向量查询时延可低至25ms,且数据的运算成本以 10 倍计降低。同时 Science Navigator 中构建的实验方法知识库,利用大语言模型和向量数据库技术,从海量的科学文献中自动抽取、整理、归纳和表示实验方法的相关信息,包括实验目的、原理、步骤、参数、结果、评价等,实现对实验方法的快速检索、比较、优化和推荐,以及对实验结果的自动分析、评估和总结。未来,利用知识库与实验仪器自动化系统进行对接,可实现对实验仪器的智能控制和调节,以适应不同的实验需求和条件,为实验自动化提供强有力的支撑。“向量数据库技术让大模型更高效率、更低成本的存储和读取专业领域知识,通过向量数据库给大模型动态更新数据,也满足文献快速迭代的实际情况”。墨奇科技副总裁孟卓飞介绍道,“目前我们的向量数据库技术可支持人工智能场景下的千亿级非结构化数据分析,可以有效地在海量非结构化数据的文献数据中发挥价值,实现快速分析文献信息,真正实现了“多、快、好、省”的AI for Science时代下的科学文献智能处理与分析模式。不仅在科研场景,向量数据库技术也可在金融、法律、咨询、教育等知识密集型场景体现其优势。”“希望 Science Navigator 能成为万物与模型之间的桥梁,成为科研领域的数据枢纽”孟卓飞说道,从AI4Science到AI4Knowledge,大语言模型+向量数据库的解决方案对包括金融、资讯、法律在内的知识密集型产业都可以提供强有力且通用性的支撑,让知识检索从面向数据库和检索工具,向下一个自然语言交互的对话时代发展。未来,文献知识库最终的用户可能从现有的人类用户发展到机器用户,借助对话机器人辅助思考,让我们的提问变得自动化。机器可以拆解我们提出的方向性问题,提出质疑点、设计论据,然后进行实验设计,再搜寻实验结论或者进行实验模拟,通过结果进行问题的反思推导和迭代,通过这样一套流程更进一步地释放科研人员的精力。AI for Science高速向前的发展,将为科学研究带来更多新方法与新工具,为领域内解决基础的共性问题,为产业应用的实际场景提供科学研究的基础设施,相信将在材料科学、能源行业、药物研发等方向上带来巨大变革,提升创新效能,创造应用效益。目前Science Navigator已经开放内测,大家可以通过邮箱contact@bjaisi.com进行申请。