在过去的 500 年里,瑞典国家图书馆几乎收集了瑞典语出版的所有词汇,从无价的中世纪手稿到今天的披萨菜单。
得益于一项百年来的法律要求,所有瑞典出版物需要提交副本给图书馆(被称为Kungliga biblioteket,或KB)——图书馆馆藏涵盖了从易见到罕见的各种资源内容:书籍、报纸、广播和电视节目、互联网内容、博士论文、明信片、菜单和视频游戏。这是一个非常多样化的近26PB的数据集合,非常适合训练最先进的人工智能。
“我们可以构建最先进的瑞典语人工智能模型,因为我们拥有最好的数据,”图书馆数据实验室、KBLab主任Love B?rjeson说。
该团队利用NVIDIA DGX系统,开发了二十多个开源的transformer模型,可以在Hugging Face上找到。这些模型每月被多达20万名开发者下载,可以支持图书馆和其他学术机构的研究。
“在我们的实验室成立之前,研究人员无法访问图书馆的数据集——他们只能一次查看一个对象,”B?rjeson说。“图书馆有必要创建能够让研究人员进行量化研究的数据集。”
有了这些,研究人员很快就能够创建超专业化的数据集——例如,提取出所有描绘教堂的瑞典明信片、所有用特定风格写成的文本或者所有在书籍、报纸文章和电视广播中提到的历史人物。
将图书馆档案转化为 AI 训练数据
图书馆的数据集全面地代表了瑞典语的多样性——包括其正式和非正式的变体、地区方言和时代变化。
“我们的数据流是持续不断的,而且在增长——每个月,我们会看到超过50TB的新数据,”B?rjeson说。“在数字化数据呈指数增长,以及将数百年前的实体藏品数字化的工作持续进行的情况下,我们永远不会停止馆藏的增加。”
在2019年KBLab成立后不久,B?rjeson就看到了利用图书馆的庞大档案来训练transformer 语言模型的潜力。他受到了谷歌早期的一种多语言自然语言处理模型的启发,该模型包含了5GB的瑞典文本。
KBLab的第一个模型使用了4倍的数据量——而且团队现在的目标是至少用1TB的瑞典文本来训练它们的模型。实验室开始尝试将荷兰语、德语和挪威语等其他语言的内容加入其数据集,因为发现多语言数据集可能会提高人工智能的性能。
利用多模态数据进行人文学科研究
除了瑞典语的transformer模型,KBLab还有一个人工智能工具,可以将声音转换为文本,使图书馆能够将其庞大的广播节目收藏进行转录,以便研究人员可以搜索音频记录中的特定内容。
KBLab还开始开发生成文本模型,并正在开发一个能够处理视频并自动生成其内容描述的人工智能模型。
“我们也想要链接所有不同的模态,”B?rjeson说。“当你在图书馆的数据库中搜索一个特定的词语时,我们应该能够返回包括文本、音频和视频的结果。”
KBLab与哥德堡大学( University of Gothenburg)的研究人员合作,他们正在使用实验室的模型开发下游领域应用,进行语言学研究——包括一个支持瑞典学术用数据驱动的技术来更新瑞典词典的项目。
“这些模型带来的社会效益比我们最初预期的要大得多,”B?rjeson说。