《瑞典国家图书馆利用AI解读百年数据》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-10-14
  • 在过去的 500 年里,瑞典国家图书馆几乎收集了瑞典语出版的所有词汇,从无价的中世纪手稿到今天的披萨菜单。

    得益于一项百年来的法律要求,所有瑞典出版物需要提交副本给图书馆(被称为Kungliga biblioteket,或KB)——图书馆馆藏涵盖了从易见到罕见的各种资源内容:书籍、报纸、广播和电视节目、互联网内容、博士论文、明信片、菜单和视频游戏。这是一个非常多样化的近26PB的数据集合,非常适合训练最先进的人工智能。

    “我们可以构建最先进的瑞典语人工智能模型,因为我们拥有最好的数据,”图书馆数据实验室、KBLab主任Love B?rjeson说。

    该团队利用NVIDIA DGX系统,开发了二十多个开源的transformer模型,可以在Hugging Face上找到。这些模型每月被多达20万名开发者下载,可以支持图书馆和其他学术机构的研究。

    “在我们的实验室成立之前,研究人员无法访问图书馆的数据集——他们只能一次查看一个对象,”B?rjeson说。“图书馆有必要创建能够让研究人员进行量化研究的数据集。”

    有了这些,研究人员很快就能够创建超专业化的数据集——例如,提取出所有描绘教堂的瑞典明信片、所有用特定风格写成的文本或者所有在书籍、报纸文章和电视广播中提到的历史人物。

    将图书馆档案转化为 AI 训练数据

    图书馆的数据集全面地代表了瑞典语的多样性——包括其正式和非正式的变体、地区方言和时代变化。

    “我们的数据流是持续不断的,而且在增长——每个月,我们会看到超过50TB的新数据,”B?rjeson说。“在数字化数据呈指数增长,以及将数百年前的实体藏品数字化的工作持续进行的情况下,我们永远不会停止馆藏的增加。”

    在2019年KBLab成立后不久,B?rjeson就看到了利用图书馆的庞大档案来训练transformer 语言模型的潜力。他受到了谷歌早期的一种多语言自然语言处理模型的启发,该模型包含了5GB的瑞典文本。

    KBLab的第一个模型使用了4倍的数据量——而且团队现在的目标是至少用1TB的瑞典文本来训练它们的模型。实验室开始尝试将荷兰语、德语和挪威语等其他语言的内容加入其数据集,因为发现多语言数据集可能会提高人工智能的性能。 

    利用多模态数据进行人文学科研究

    除了瑞典语的transformer模型,KBLab还有一个人工智能工具,可以将声音转换为文本,使图书馆能够将其庞大的广播节目收藏进行转录,以便研究人员可以搜索音频记录中的特定内容。

    KBLab还开始开发生成文本模型,并正在开发一个能够处理视频并自动生成其内容描述的人工智能模型。

    “我们也想要链接所有不同的模态,”B?rjeson说。“当你在图书馆的数据库中搜索一个特定的词语时,我们应该能够返回包括文本、音频和视频的结果。”

    KBLab与哥德堡大学( University of Gothenburg)的研究人员合作,他们正在使用实验室的模型开发下游领域应用,进行语言学研究——包括一个支持瑞典学术用数据驱动的技术来更新瑞典词典的项目。

    “这些模型带来的社会效益比我们最初预期的要大得多,”B?rjeson说。

  • 原文来源:https://mp.weixin.qq.com/s/sWWdQp-ek-aNACkivSCFVQ
相关报告
  • 《瑞典国家图书馆发布2024年科学出版费用报告》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2025-07-02
    • 一、引言 瑞典国家图书馆(KB)负责报告具有国家主管部门或依据《特定学位授予许可法》获得学位授予许可的大学和高校的科学出版总支出。该任务规定在瑞典国家图书馆的指令中。 该任务可追溯至瑞典国家图书馆于2019年进行的调查工作。该调查建议在向开放获取出版系统转型的过程中,持续监测和分析国家出版成本。收集、分析和讨论出版成本以提高透明度和意识,可能是一条控制和引导科学出版成本的途径。 收集到的支出数据已成为讨论高校和研究资助机构之间分担科学出版成本责任的基础材料的一部分。这些讨论已促使瑞典研究理事会(Vetenskapsr?det)、瑞典健康、工作生活与福利研究理事会(Forte)、瑞典环境、农业科学与空间规划研究理事会(Formas)和瑞典创新署(Vinnova)加大投入,它们已拨款用于支付与Bibsam联盟组织相关的研究人员在提供开放获取出版物的出版商处的出版费用。 (1)支出项目的分类 为了能够跟踪不同支出领域内部及随时间的变动情况,支出被分为9个子项。这9个支出项目是: ·Bibsam联盟订阅费; ·本地订阅费; ·阅读与出版转换协议—Bibsam联盟; ·开放获取出版—Bibsam联盟; ·开放获取出版—研究资助机构; ·开放获取出版—本地; ·实体资源采购; ·开放出版基础设施; ·行政支出。 (2)Bibsam联盟 高校科学出版支出的一个重要部分由所谓的Bibsam联盟签订的协议构成。Bibsam联盟由瑞典的大学、高校、政府机构和国家级研究机构组成,由KB协调。2024年有95个组织参与。共有43项所谓的Bibsam协议,涵盖约100个电子资源包。 联盟在过去几年谈判达成的阅读与出版转换协议已成为实现政府关于开放获取科学出版目标的杠杆。2024年,联盟的总营业额约为6.36亿瑞典克朗,比上一年增加了3,300万瑞典克朗。 Bibsam联盟的指导小组由参与组织的图书馆和管理层代表组成。指导小组致力于制定谈判策略,并就协议的内容和形式做出总体原则性决定。必要时,Bibsam联盟的战略选择可提交至瑞典大学与高校协会联合会(SUHF)的会员大会校长层面讨论。 (3)高校 2024年,瑞典共有49所具有国家主管部门或拥有国家学位授予权的私立主管部门的高校。其中包括18所大学、12所高校、5所艺术高校以及14所其他私立教育机构。科学出版总支出的报告基于这49所高校的可用数据。 在这49所高校中,有36所参与了Bibsam联盟,因此被纳入Bibsam联盟的统计数据。所有大学和高校(30所)都参与了该联盟。在艺术高校中,5所中有3所参与;而在其他私立教育机构中,14所中有3所参与。 (4)研究资助机构 2023年秋季,国家研究资助机构Formas、Forte、瑞典研究理事会Vetenskapsr?det和Vinnova决定在2024年和2025年每年拨款3,600万瑞典克朗,用于支付瑞典研究人员在仅出版开放获取期刊的出版商处发表文章的费用。2024年,该计划覆盖了6家出版商,瑞典研究人员在其中发表了超过1,000篇文章。研究资助机构还共同资助了与Springer Nature签订的协议中涉及完全开放获取期刊的部分。 这些协议意味着,所有在Bibsam联盟参与组织中任职的研究人员都可以在这些出版商的期刊上发表文章,无论文章类型如何,且作者或机构无需支付费用。这项举措符合欧盟部长理事会关于科学出版成本不应由读者或作者承担的结论。 二、2024年总支出情况分析 下表汇总了2017-2024年的科学出版总支出。2024年总支出合计为806,029,118瑞典克朗,与上一年相比增长了近1%。 表1 2017-2024年科学出版总支出汇总(单位:百万瑞典克朗) (1)时间变化 2024年的结果显示,国家层面的成本比上一年增加了约700万瑞典克朗,从2023年的7.99亿瑞典克朗增至2024年的8.06亿瑞典克朗。从表1可以看出,2019年至2020年间支出有相对较大的增长。当时的增长主要是由于瑞典高校在经历了一年半没有协议后,加入了一家大型科学出版商Elsevier新签订的转换协议。 图1显示了近5年的支出增长情况。在此期间,支出从2020年的7.09亿瑞典克朗增加到2024年的8.06亿瑞典克朗,增长了约14%。图中每根柱状图最上方的深蓝色部分代表研究资助机构(Formas,Forte,瑞典研究理事会,Vinnova)对通过Bibsam联盟签订的出版协议支出的贡献。可以看出,这部分在2024年有所增加。高校的总支出在2024年相比2023年减少了约1.8%。 图1 2020-2024年总支出(单位:百万瑞典克朗) 图1按高校与研究资助机构(Formas,Forte,瑞典研究理事会,Vinnova)划分。以下将对每个支出项目的结果进行说明。 (2)Bibsam联盟订阅费和本地订阅费 “Bibsam联盟订阅费”支出项总计为1,900万瑞典克朗,与前两年持平。当2017年首次汇编数据时,这项支出曾是最高的。自那时起,大多数协议已转变为阅读与出版转换协议。然而,仍有一些协议仅包含阅读订阅访问权限。其中一些正在向其他开放获取模式转型,例如“订阅开放”(Subscribe to Open, S2O)模式。 “本地订阅费”支出项在2023-2024年间略有下降,从1.76亿瑞典克朗降至1.74亿瑞典克朗。本地订阅约占总支出的五分之一。 (3)阅读与出版转换协议 高校用于阅读与出版转换协议的支出构成了最大部分,约占总量的56%。通过Bibsam联盟签订的转型性协议数量近年来稳步增长,从2017年的3个增加到2024年的27个,这导致瑞典高校的支出项急剧增长,从2017年的3,500万瑞典克朗增至2024年的4.49亿瑞典克朗。这些协议的成本通常基于逐年上涨的文章处理费。此外,随着研究文章数量的持续增长,支出也在增加。 2024年的支出与前一年相比增幅甚微(从4.48亿增至4.49亿瑞典克朗),这可以归因于与Elsevier协议的重新谈判。Elsevier的支出几乎占Bibsam联盟营业额的30%。2024年与该出版商签订了一份新的4年期协议(2024-2027年),对于参与高校来说,相比2023年,价格降低了约1,600万瑞典克朗,降幅达11%。 这些阅读与出版转换协议有助于提高开放获取出版物的比例。据估计,2024年通过Bibsam联盟的转换协议及其他开放获取出版协议资助发表了近16,500篇开放获取文章。在过去5年中,通过Bibsam联盟出版协议发表的开放获取文章数量增加了约50%,从约11,000篇增至约16,500篇。 2024年发表的、由瑞典通讯作者撰写的文章中,开放获取的比例估计约为87%。这表明在持续向政府设定的所有科学出版物应立即开放获取的目标稳步增长和发展。该目标与欧盟的研究政策保持一致。 随着瑞典阅读与出版转换协议数量的增加,仅包含阅读权限的订阅协议(通过Bibsam联盟签订)数量在减少,因此该项支出也在下降。图2显示了2017-2024年期间阅读与出版转换协议支出的增长以及集中签订的订阅协议支出的减少。 图2 2017-2024年Bibsam联盟转换协议总支出(百万瑞典克朗)与订阅费支出对比 (4)开放获取出版 开放获取出版支出分为三个支出项:开放获取出版-Bibsam联盟;开放获取出版-研究资助机构;开放获取出版-本地。 自2018年起,Bibsam联盟与仅出版完全开放获取期刊的出版商签订了协议。从2024年开始,这些协议的资金来源发生了部分变化。在关于科学出版支付流重定向的国家多方利益相关者工作组框架内,KB于2023年制定了一个资助模型,用于支付瑞典研究人员的出版费用。2023年秋季,资助机构瑞典研究理事会(Vetenskapsr?det)、Forte、Formas和Vinnova决定在2024年和2025年每年拨款3,600万瑞典克朗,用于支付隶属于Bibsam联盟任何参与组织的研究人员在提供开放获取期刊的出版商处的文章处理费。部分由于研究资助机构的这一举措,2024年协议数量较2023年翻了一番。2024年覆盖了6家出版商,这些协议在2024年支付了约1,000篇文章的费用。这约占当前瑞典在仅提供开放获取出版的出版商处发表文章的60%。 2024年,与Springer Nature的协议中的部分由上述研究资助机构资助,用于涵盖部分完全开放获取期刊。该资助额约为2,070万瑞典克朗。如图3所示,国家研究资助机构正在增加其对开放出版的资金投入。 除了完全或部分由研究资助机构资助的协议外,还有4个由高校出资的Bibsam协议,涉及完全开放获取出版的出版商。在这4个协议中,与MDPI的协议成本最高。然而,由于2024年瑞典通讯作者在MDPI发表的文章数量比2023年减少了30%以上,2024年的成本相比2023年显著下降。 图3 2020-2024年开放获取出版支出(百万瑞典克朗) 这十个Bibsam协议的总支出从2023年的6,400万瑞典克朗增加到2024年的8,500万瑞典克朗。其中近一半(48.7%)由研究资助机构承担。 也有文章在Bibsam联盟协议之外(或高校选择不参与Bibsam协议的情况)发表开放获取文章。这些在“开放获取出版-本地”支出项中报告。2024年的支出比上一年减少了近30%(1,100万瑞典克朗)。根据30所高校的数据,2024年本地支出约为2,800万瑞典克朗,而2023年为3,900万瑞典克朗。 (5)实体资源采购 实体资源采购支出包含在支出汇总中。在人文学科领域,实体书籍的作用相当于其他学科领域的期刊订阅。实体资源采购支出的数据取自官方图书馆统计数据,并通过发送给高校图书馆的问卷回复进行了补充。 趋势似乎是实体资源采购支出在减少,这表明电子资源的采购程度在提高。但稳定的支出水平同时也表明,实体资源采购对于高校和研究人员的文献保障仍然发挥着一定作用。2024年,实体资源采购总额超过3,800万瑞典克朗,相比2023年减少了12%。 (6)开放出版基础设施 开放科学体系的一个前提是拥有强大、可扩展且开放的IT基础设施(系统、服务和协议),这些基础设施能够实现研究的收集、存储、组织、访问、共享和评估。这要求对基于既定标准构建的数字基础设施进行长期投资。联合国教科文组织(UNESCO)在其开放科学建议中指出开放出版基础设施的重要性,并强调研究执行和资助机构应参与其中。同样,受政府委托,瑞典国家图书馆(KB)制定的国家开放科学指南也强调了开放基础设施的重要性,并指出特别需要支持此类国家级的开放服务和基础设施。 通过发送的问卷收集高校在开放基础设施上的支出。2024年,30所高校为分布在17个指定基础设施上的约一百项会员费或资助资金支付了费用。高校还被要求在列出的17个基础设施之外,纳入并说明其他基础设施。又收到了大约十几个基础设施的信息。 开放基础设施通常通过会员费或资助资金的组合提供支持,并由公共研究组织或非营利性倡议运营。获得瑞典高校财政支持的基础设施示例包括:arXiv.org、COAR、COUNTER、Crossref、Kriterium、Open Journal Systems(PKP)、OurResearch(Unpaywall/OpenAlex)和SciPost。 最多高校产生支出的基础设施是其自身的开放获取知识库。这样的知识库使研究人员能够在出版商允许的情况下,将文章的同行评审版本在高校知识库中平行出版(或存储)。约有50所高校和研究机构参与了数字出版系统DiVA,该系统收集参与组织产出的出版物并向外界传播。未参与DiVA的高校在其他(通常是商业性的)出版系统上会产生相应的成本。 高校在开放基础设施上的总支出略低于1,200万瑞典克朗,约占总支出的1.5%。在芬兰,开放出版基础设施的费用约占总支出(2023年)的0.8%。 (7)总支出与研究及研究生教育收入的比较 为了将科学出版总支出与高校研究活动的规模联系起来,可以将支出与高校研究及研究生教育收入进行比较。2024年,这些收入总计约552亿瑞典克朗。2024年科学出版总支出约占研究及研究生教育总收入的1.5%,与最近几年的水平相同,见图4。 图4 2017至2024年科学出版总支出占高校研究及研究生教育收入的百分比 支出占收入的比例在各高校之间有所不同。一般来说,高校的占比高于大型大学。例如,耶夫勒大学(H?gskolan i G?vle)为4.0%,而乌普萨拉大学(Uppsala universitet)为1.3%。在科学出版支出最高的十所高校中,平均值为1.3%。附录3按高校(大学和学院)报告了支出与其研究及研究生教育收入的比较情况。 (8)汇率影响和通胀 2024年的支出增长可由几个因素解释。一是与商业科学出版商的协议通常有年度价格上涨。二是发票支付时的汇率。几乎所有Bibsam协议都以外币开具发票,这意味着汇率对以瑞典克朗计价的结果有很大影响。欧元是最大的货币,占2024年价值的67.7%。其次是美元,占18.2%,英镑占12.2%。 在2022年进行的一项内部分析中,对不同货币相对于汇率的影响进行了加权,目的是跟踪瑞典克朗价值随时间的发展变化情况。该指数被证明与瑞典中央银行(Sveriges Riksbank)发布的汇率指数KIX几乎相同。当该指数上升时,意味着瑞典克朗的价值下降,反之亦然。该指数始于1992年11月,基值为100。 在2008年金融危机期间,克朗价值下降,随后逐步上升,直到2013年初趋势逆转。在2020年COVID-19大流行期间,克朗略有上升,但在2022年俄罗斯全面入侵乌克兰时下降。在2024年3月底支付大部分发票时,KIX指数比去年同期高出约1%。 图5 2007 – 2025瑞典央行汇率指数 关于通胀,瑞典统计局(SCB)为不同目的计算不同的通胀指标。2024年,瑞典按固定利率消费价格指数(KPIF)衡量的通胀率为1.9%。高校用于科学出版的产品和服务的提供商(出版商)要么来自欧洲,要么来自美国。欧元区的年通胀率略高于瑞典,约为2.4%,而美国则更高一些,约为2.9%。
  • 《国家图书馆推动开放获取进程的催化剂作用:以瑞典为例》

    • 来源专题:图书情报
    • 编译者:xuxue
    • 发布时间:2017-06-01
    • 本文揭示了瑞典国家图书馆自1990年以来,已将“传统”意义上的国家图书馆与国家级研究型图书馆管理部门的使命相融合。瑞典国家图书馆协调支持了OpenAccess.se项目中的存储库和开放获取的发展,该项目自2006年运营到2009年。由此得出的结论是,在推进开放获取进程和建设数字化研究信息基础设施方面,国家图书馆在使主要研究主体和研究型图书馆紧密合作方面,能够成功发挥催化剂的助推作用。这是因为国家图书馆通常直接设置于政府之下,因此更接近于国家政策的制定。这在涉及各方不同利益的关系中一般被认为是公平的。 这也能够推动可持续服务项目的发展。