《孙坦:支撑AI4S的智能知识服务的任务》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2024-02-02
  • 在人工智能技术推动智能互联网发展的时代,人工智能技术与科学研究深度耦合,推动了“人工智能驱动的科学研究”(AIforScience,AI4S)的研究范式变革。AI4S的研究得到世界各国政府、产业界、学界的极大关注和重视,对于推动科技变革、提升国家竞争力具有重要作用,AI4S的演进过程和逻辑结构是什么样的?AI4S在主要领域的应用情况如何?AI4S的发展机遇和挑战有哪些?信息资源管理学科如何应对AI4S革命?以下是《农业图书情报学报》2023年12月发表的专家笔谈观点。下文整理了中国农业科学院孙坦研究员的观点。他提出支撑AI4S的智能知识服务的三个任务:(1)包括树立大文献观,深挖全文知识要素,(2)兼顾普惠与专深,自主打造核心产品(3)与专业领域深度握手,支撑跨学科创新。


    AI4S战略及现实意义深远,必然会给自然科学带来变革性影响。2024新年伊始,国家数据局等17部门联合发布的《“数据要素*”三年行动计划(2024-2026年)》强调要面向基础学科提供高质量科学数据资源与知识服务,驱动科学创新发现,深入挖掘各类科学数据和科技文献,通过细粒度知识抽取和多来源知识融合,构建科学知识资源底座,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。探索科研新范式,充分依托各类数据库与知识库,推进跨学科、跨领域协同创新,以数据驱动发现新规律,创造新知识,加速科学研究范式变革。为此,专业科技信息机构需要重新审视AI4S环境中知识服务及其在全面支撑科技创新进程中的重要角色与新的任务。


    1. 树立大文献观,深挖全文知识要素

    科技文献全文蕴含丰富的知识,可以充分挖掘全文内容,向全文野要冶知识,集聚人工智能场景数据资源,建设高质量多模态特色语料知识库。加强富知识要素的全文资源、领域特色资源等多源采集汇聚、深度碎片加工、语义知识组织(词表、图谱、专家库、机构库、领域实体库等冤、本地长期存储,以及标注训练数据等建设工作,全面提升数据治理与知识组织水平,为人工智能应用提供坚实语料基础,为全面数字化转型提供理论方法、技术工具供给。


    2. 兼顾普惠与专深,自主打造核心产品

    中国科技人员文献需求仍旧非常旺盛,亟需缓解高质量产品的需求与不平衡不充分的知识服务供给之间的矛盾,实现科技文献知识的野共同富裕冶,实现科技文献基础性保障服务平台自主可控,助力科技强国建设。研发语义智能检索与泛在发现获取平台及大模型驱动的专业领域通用知识发现系统,构建问题和场景驱动的新型知识发现工具体系,深度集成应用深度学习、大语言模型等人工智能技术,研发人机对话式专题知识发现服务工具,如问答式检索、生成式综述等。


    3. 与专业领域深度握手,支撑跨学科创新

    为了适应跨学科研究范式发展,需要建设野跨学科数据+AI驱动冶的知识密集型数字科研计算平台。重点围绕我国在生物育种研发、基因研究、新材料研发等领域的战略部署,以需求为导向谋划人工智能技术应用场景,深度融合人工智能模型算法和领域数据知识,为重大科学问题和发现的研究突破提供助力,开辟新领域、新赛道,塑造新动能、新优势。


    引用:孙坦, 张智雄, 周力虹, 等. 人工智能驱动的第五科研范式(AI4S)变革与观察[J]. 农业图书情报学报, 2023, 35(10): 4-32.

  • 原文来源:https://mp.weixin.qq.com/s/DJsxtuz_SJ_ArX5QX7M7lw
相关报告
  • 《共建AI4S基础设施(三):替代文献的数据库与知识库》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-10
    • 无论哪一个学科,文献对于科研工作都是必不可少的,它可以帮助科研人员了解前沿动态和最新成果,学习相关知识和技术,激发创新和灵感,验证理论和实验,同时也是促进学术交流的载体。然而,科研文献更新速度快,数量呈现出爆炸式的增长,如何有效地管理和利用海量的文献资源,成为了科研人员面临的一个迫切的问题。据美国国家科学基金会统计,科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%。 近年来信息技术的飞跃,带来了各种文献搜索引擎如 Google Scholar、CNKI ,学术社交网络 ResearchGate、Academia.edu 等平台可以帮助用户快速找到相关领域的专家和研究成果,EndNote、Zotero 等可以帮助用户管理学术文献,GPT问答式检索的出现翻开文献查找新篇章。即便如此,已有工具仍存在功能单一或不完善、难以与其他的软件或平台进行对接集成,操作方式不简便,需要学习教程等问题。 构建AI for Science基础设施的目标之一就是集中力量解决共性问题,文献是支撑各学科科研工作者研究决策的知识体系,为提升创新效能,有机地将科学家们的集体智慧充分提取出来,构建易用性强、准确率高的替代文献的数据库与知识库,成为AI for Science基础设施建设方向之一。 对于自然科学研究来说,虽然GPT的出现在一定程度上增加了文献查阅的便捷性,但不完全适用于学术性问答的交互,存在局限性。科学文献大多为非结构化数据,且专业属性极强,各个领域的文献更新速度快。由于大模型的结构特点,每一次重新训练的成本都是非常高昂的,怎样让最新的数据高效的覆盖进来也是目前面临的重大问题。 将大语言模型与数据库相结合,可以通过对大量文本数据进行训练来生成语言模型,然后可以将这个模型与数据库结合使用,以便对数据库中的文本数据进行自然语言处理和语义分析。这种结合可以帮助提高数据库的查询和分析能力,从而更好地满足用户的需求。例如,可以使用大语言模型来自动化生成数据库查询语句,或者使用大语言模型来识别和提取数据库中的实体、关系和事件等信息,以便给用户更加智能化和个性化的查询分析服务。 类似这样的场景已经逐步实现:科研人员通过自然语言方式询问“我想知道最近一个月内被提及最多次的技术是什么”,“我想知道最近一个月内人工智能领域发表的论文中出现频率最高的技术是什么”,“删除最近一个月内指标低于 XX 的实验数据”,平台以对话形式返回结果或对数据进行相应操作,极大提高了数据管理的效率。 此外,还可以构建文献推荐系统,通过学习用户的历史行为和偏好,然后将这些信息用于预测用户可能需要关注的文献,并将这些预测结果与数据库中的数据进行匹配,从而提供用户最符合其需求的推荐结果。大语言模型结合向量数据库的方式,还可以加快大批量论文载入时间,降低数据的运算成本。 相较于传统检索方法只能返回精确匹配的文献本身,构建替代文献的知识库与平台工具,可实现多模态交互,并同时支持中英文提问回答方式,将为科研人员提供一个强大的知识信息资源和智能助手,轻松进行查找、阅读、对比分析、总结等需求。 科研数据不仅局限于文献文本,实验方法数据、结果数据、文献中的图表也是重要的数据来源。这也引发了构建实验方法知识库的需求。从海量的科学文献中自动抽取、整理、归纳和表示实验方法的相关信息,包括实验目的、原理、步骤、参数、结果、评价等,实现对实验方法的快速检索、比较、优化和推荐,以及对实验结果的自动分析、评估和总结。比如在合成化学领域,建立合成化学文献的附录,描述已有实验的步骤和结果。通过结构化查询,我们可以将其转化为合成化学实验知识库或数据库,开发人工智能算法进行对比分析,自动给出最佳合成化学路径的建议。利用知识库与实验仪器自动化系统进行对接,来实现对实验仪器的智能控制和调节,以适应不同的实验需求和条件,为实验自动化提供强有力的支撑。 未来,文献知识库最终的用户可能从现有的人类用户发展到机器用户,借助对话机器人辅助思考,让我们的提问也变得自动化。机器可以拆解我们提出的方向性问题,提出质疑点、设计论据,然后进行实验设计,再搜寻实验结论或者进行实验模拟,通过结果进行问题的反思推导或迭代实验设计方案,通过这样一套流程更进一步地提效,也打通了与另一个AI4S基础设施“高精度、高效率的实验系统”的连接。 不仅在自然科学,包括金融、资讯、法律在内的知识密集型产业都可以构建文献知识库,以提供强有力且通用性的支撑,让知识检索从面向数据库和检索工具,向下一个自然语言交互的对话时代发展。 相信,通过建设“替代文献的数据库与知识库”这一重要的AI for Science基础设施,将大大提升文献的检索、阅读、分析及管理效率,进一步助力科研人员提升科研生产力,让科研工作者释放更多的时间精力在解决关键问题与创新思考上。
  • 《DeepSeek来了!人工智能知识产权法律保护须强化》

    • 来源专题:人工智能
    • 编译者:高楠
    • 发布时间:2025-02-28
    • 2025年1月28日,深度探索DeepSeek发布,在世界产生巨大反响,DeepSeek在知识问答、长文本处理、代码生成和数学能力等方面达到顶尖水平,实现中国人工智能技术的突破性进展,开源大模型对全球人工智能产业格局产生深远影响。当前,以大模型为代表的人工智能飞速发展实现了从“复制”到“创造”的跨越,对现有创作模式产生颠覆性的变化,对知识产权法律保护带来前所未有的机遇与挑战。近年来,《生成式人工智能服务管理暂行办法》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等法规颁布,其目的是预防技术滥用带来的各类安全风险,确保技术创新发展符合知识产权规范,防止滥用,预防风险。在科技创新和新质生产力发展的新时期,强化法律监管和创新司法实践是预防知识产权带来的法律合规风险的有效手段,是促进人工智能安全可靠发展的制度保障。   开展模型训练的合理使用   生成式人工智能全生命周期主要阶段包括模型训练、应用运行和模型优化等阶段,涉及开发者、服务提供者、服务使用者等多方主体。模型训练阶段涉及大量数据收集、数据清洗、分词后用于模型训练和验证。生成式人工智能的数据来源主要分为两个部分:第一部分为生成式人工智能的训练数据库,内容几乎涵盖所有能收集到的人类数字化信息,包括公共数据、网络信息、数字化图书、自媒体对话数据集、报纸杂志、科学论文等,可能遭遇知识产权瓶颈;第二部分为生成式人工智能在服务用户的过程中所收集和输出的信息,也就是人工智能合成数据收集,可以减少知识产权风险。生成式人工智能的治理应顺应技术发展给社会生产带来的变化,改变原有的“技术支持者—服务提供者—内容生产者”的监管体系,构建“基础模型—专业模型—服务应用”的生成式人工智能分层治理体系。   从输入端看,训练数据来源的合法合规问题十分突出,生成式人工智能需要进行海量的阅读和摄取,在海量数据的摄取过程中,包括爬虫技术无法识别抓取内容的著作权问题,已经成为生成式人工智能合规发展中制约性的难题。《生成式人工智能服务管理暂行办法》规定:“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。”该条款的主要目的是规范生成式人工智能服务提供者数据来源的合法性问题,如果数据来源不合法不合规,该产品将无法进入市场应用阶段。从输出端来看,终端用户、模型提供者的生成内容是否拥有著作权,人工智能服务的提供者生成的内容是否侵权,都是法律监管和司法实践中面临的难点问题。   在大模型产业快速发展和应用的过程中,围绕创作激励与产业发展的作品使用行为性质面临诸多争议,目前已发生多起作者、版权方针对生成式人工智能模型训练过程中未经授权的作品使用行为提起诉讼。近期,四位绘画创作者将某社交平台诉至法院,诉称其未经授权使用了原告的原创作品作为训练数据,从而生成与原作高度相似的图片,侵犯其创作者的合法权益,目前案件仍在审理中。去年广州互联网法院开庭审理并一审判决被称为“全球AIGC平台侵权第一案”。原告发现被告经营的网站具有AI对话及AI绘画功能,其生成的奥特曼形象与原告公司获得独占性授权以及独立维权权利的奥特曼形象构成实质性相似,遂向法院提起诉讼,争议焦点是人工智能生成内容的著作权定性问题及应用中对作品使用的合法性问题。广州互联网法院最终认定,网络平台作为生成式人工智能服务提供者未尽合理注意义务,未采取措施避免侵权行为,违反了《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》。被告AI公司未经许可,复制了案涉奥特曼作品,构成直接侵犯奥特曼著作权的复制权;上述行为构成对案涉奥特曼作品的改编,且被告未经许可,改编了案涉奥特曼作品,侵犯了原告对案涉奥特曼作品的改编权,并责令其停止侵权行为,赔偿原告经济损失。该案例的重要性在于确立了网络平台作为人工智能服务提供者的责任边界,在司法上落实了《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》的合规要求。   人工智能生成内容的著作权问题   《民法典》规定网络服务提供者责任承担的一般原则,即网络服务提供者无须为用户利用网络服务的侵权行为承担责任,但对于其知道或应当知道的网络用户侵权行为应及时采取必要措施以避免损害扩大。在人工智能面向终端用户提供服务的场景下,生成内容是算法自身基于对人工智能服务使用者输入内容的理解,通过算法生成的方式完成。由于人工智能需要利用现有作品进行模型训练,通过依赖训练作品形成的算法模型产生人工智能生成内容,不可避免的携带训练作品的记忆或痕迹,可能呈现出训练作品的某些元素、特征、风格等。如果人工智能生成内容与训练作品在表达上构成实质性相似状况,则可能存在侵权风险。目前我国《著作权法》中著作权属主体不包括人工智能模型,因此人工智能模型本身是否能够成为《著作权法》保护的主体存在争议。在当下的司法实务中,通常是由生成式人工智能的使用者向法院请求著作权保护的方式进行维权。北京互联网法院近期针对人工智能生成图片作品(AI绘画图片)著作权侵权纠纷作出一审判决,认定人工智能生成的图片作品体现了原告的智力投入,具备“智力成果”要件和“独创性”要件,应当认定为作品,受《著作权法》保护,体现了人工智能绘画作品保护的司法创新。人类大量投入研发、优化的人工智能算法生成的内容应当被认定为满足“创造性”的要求。法院认可自然人对其利用人工智能绘画大模型生成图片在符合一定条件下享有知识产权,有利于保护和强化人在人工智能产业发展中的主导地位,鼓励人们使用人工智能软件创作更多高质量作品,促进新技术、新业态的健康发展。该判决填补了人工智能技术快速发展导致《著作权法》保护滞后的空白。   利用海量的数据进行深度学习、训练并调用,很可能涉及他人仍在著作权保护期内的作品。《生成式人工智能服务管理暂行办法》明确规定,生成式人工智能开展训练数据处理活动应当使用合法来源的数据,不得侵害他人知识产权。如果生成式人工智能深度学习、训练、调用的数据中,涉及他人仍在著作权保护期内的作品,或者有他人公开的具有竞争利益的数据或者素材,但未经他人特别授权的,是否会构成侵权或者不正当竞争?根据《著作权法》第五十二条的规定,剽窃他人作品的,“未经著作权人许可,以改编、翻译、注释等方式使用作品的(本法另有规定的除外)”,均构成对他人著作权的侵权行为,应依法承担侵权民事责任。所以,生成式人工智能服务提供者通过其人工智能生成并输出的内容,与他人仍在著作权保护期内的在先公开作品构成实质性相似的,只要未经著作权人许可,应当构成对他人著作权的侵犯,承担侵权责任。 (作者:薛兴华)