一、现有大语言模型的局限
LLMs尚不能真正处理大多数同行评审研究文章。因为大部分内容被付费墙阻隔,无法获取。如果LLMs是未来信息发现的方向,那么学术出版商传播的有价值研究成果就可能被抛在身后,除非我们在权威研究与智能检索之间架起一座桥梁。
出于多种原因,许多出版商不愿与大型AI公司合作。有些认为AI公司侵犯了其版权,有些担心这会严重威胁自身业务,还有些则在观望同行的行动。出版商与AI及AI公司的互动呈现出不同态势:一端是抵制并与AI公司对抗的群体,另一端则是宣布达成大型许可协议并建立直接合作关系的群体(例如威立近期宣布与Anthropic达成合作)。
由于困惑、威胁以及技术的不断变化,最新AI技术与网络上最具权威性的内容——研究论文之间存在鸿沟。虽然这看似是一个新挑战,但这让人想起互联网初期,当时海量信息网页以前所未有的规模涌现。正如Sergey Brin和Larry Page在其开创性论文中指出,“网页的激增缺乏质量控制”,“一条关于IBM计算机某个冷门问题的随机存档留言,与IBM官网页面截然不同”。这与LLMs和聊天机器人的情况非常相似:由于ChatGPT等服务使用便捷且价值易见,它成了史上增长最快的产品。然而,我们很难判断ChatGPT生成的内容是权威信息还是“虚拟”内容。
与网络发展初期类似,AI公司正在寻找更好的方法,为用户提供可验证的准确信息。ChatGPT最初没有参考来源。现在它通过一个称为检索增强生成(Retrieval Augmented Generation,RAG)的过程,引用网页甚至科学论文中的来源(尽管仅限于开放获取的文章)。
AI系统的质量取决于其训练数据或所能交互的内容质量。这通常导致生成虚假或不完整的内容。就像网络初期一样,科学出版可能成为解决方案的一部分,例如引文。
区分可信网页与不太可信网页的挑战,很大程度上通过PageRank算法得到了解决,而该算法直接受到了引文分析和科学出版的启发。Brin和Page在他们那篇开创性的文章中指出,PageRank“提供了一种更复杂的进行引文计数的方法”,科学引文索引的创建者Eugene Garfield甚至被Brin和Page引用。因此,引文有助于使网络更加可信和有用。我认为引文可以对LLMs起到同样的作用。
二、引文与大语言模型
在过去的十年里,我一直在深入思考引文。在科学领域,引文在很大程度上被用作一种“货币”、衡量成败的指标,也是研究人员和期刊所渴求的东西。我最喜欢的一篇论文的标题很好地抓住了这一点,《C.R.E.A.M:引文主宰我的一切》。尽管对引文有着热烈的兴趣,但自其诞生以来,它们的呈现方式几乎从未改变,即引用该文章的一系列论文列表。传统引文并不显示一篇文章是如何或为何被引用,仅仅表明它被引用了。然而,研究表明,引用一篇文章有几十种原因。
Scite一直在努力改进引文,通过呈现引用文章中实际的文内引述语句,标明这些语句在文档中的位置,并指出被引观点是得到支持还是被反驳。这些增强的片段,我们称之为“智能引文”(Smart Citations),能够系统性地为研究问题提供可验证的答案。
图1 Scite.ai智能引文的示例
图1展示了引用文章中的文本内引述语句、这些语句在文档中的位置,以及被引述观点是得到支持还是遭到反驳。
关键在于,我们构建下一代引文的工作是在与出版商直接签订的索引协议下进行的。我认为,AI公司与出版商之间可以构建一种合作机制,以既能保护研究人员和出版商,又能将全球最强大的LLMs与权威内容连接起来的方式。
三、智能引文
智能引用(或类似形式)可以作为一种模型,向LLMs许可研究文章,供其在检索增强生成(RAG)中使用。一个跨出版商的统一带注释引文数据集可以进行许可,且使用情况可追踪(甚至可与COUNTER标准兼容)。这是一种负责任地填补AI/LLMs与科学出版商之间差距的新方式。
这种模式能带来诸多明确的益处:
·归属权(Attribution):如果LLMs无法交互某篇文章,就无法引用它。通过受控方式直接许可内容,能让内容更有可能在聊天机器人中被呈现和引用。
·可靠性(Reliability):LLMs难以令人信服。通过将LLMs与权威内容关联,其输出会更可信、更全面。引述片段可以被呈现,方便终端用户验证,同时又不会削弱正式版本的价值。
·可发现性(Discovery):类似于摘要有助于内容在网络上被更多人发现但又不会泄露全文一样,引述片段既能保留正式版本,又能为研究人员和出版商带来流量。
·补偿(Compensation):出版商的正式版本在发现环境中被使用时,能获得报酬。LLMs与某篇文章的交互次数越多,内容的付费次数就越多。可以将“人工智能读取量”视为新的阅读量和下载量。
这种方法可以扩展,不仅为研究领域构建下一代引文,还能为大型语言模型打造专用引文。聊天机器人正在被有真实问题的真实的人使用,有时答案会以非常严肃的方式直接影响他们的生活。作为一个群体,我们应当思考如何确保社会和世界能获得尽可能优质的信息。我认为出版商现在比以往任何时候都更加重要。