《K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-09-27
  • 地球科学是一门古老的学科,不仅研究岩石、矿物和土地的性质,还探讨地球的气候、海洋、大气、生态系统等多个方面现象和原理。地学与我们的日常生活息息相关,帮助我们预测天气,了解地球的演化历史,维护海洋生态系统平衡和海洋资源均衡等。同时火山活动、地震、恐龙化石、气象现象等引人入胜的内容,也被一个个地学工作者阐述出来,带给大家一个又一个令人惊奇和引人入胜的故事。

    总的来说,地球科学是一门理论性、应用性都很强的自然科学。从理论性上来说,它承担着揭示自然界奥秘与规律的使命。从应用性上来看,它为生活在地球上的人类如何适应、利用、保护自然提供了科学的方法论。但是一味的通过传统的理论和实践的方法并不能高效的发现新的地学理论,整合传统的地球科学和利用计算机科学的处理大数据成了地球科学的新科研范式。

    很长一段时间以来,计算机科学已经成为地球科学不可或缺的一部分。地球科学涉及大量的数据,包括文献数据、地质数据、气象数据、遥感数据等。计算机科学提供了处理、存储和分析这些海量图片、文本和数字等模态的数据的工具和技术。这两个学科的交叉融合已经成为大势所趋。

    其中,文本数据挖掘是重要的但是最容易被忽视的一个重要组成部分。从大量的文本数据中提取有关地球科学的信息、模式和趋势,可以加深对地球科学的理解,并为科学研究、决策制定和问题解决提供支持。与此同时,近年大火的语言模型又是文本数据挖掘重要的工具。因此,在这样的一个属于大语言模型的时代,推出一个地球科学这个垂直领域的基座语言模型势在必行。

    最近,来自上海交通大学的团队推出一个 70 亿参数的地球科学大语言模型名叫 K2。K2 是基于初代 LLaMA-7B 模型,并使用了 100 万余篇地球科学文献以及和地球科学相关的维基百科的文章进行更进一步的预训练。同时设计了第一个地球科学领域的微调数据集 GeoSignal,包含文章内容、类别、参考文献、提到的实体等,适用于解决回答地球科学方面的专业问题、完成命名实体提取、地学概念上下位关系判断等任务。

    区别于大多数垂直领域的模型训练的思路,该团队通过独特的数据重构技术生成指令微调的数据,而不仅仅是利用 self-instruct 等方法,利用 ChatGPT 生成的数据来进行指令数据的采集。

    同时为了评估模型在地学知识的理解和应用方面的能力,他们还建立了第一个地球科学语言模型的基准 GeoBenchmark,它主要由中国的地理、地质学的考研题目和美国的地理、地质与环境科学的 AP 考试题目组成。有意思的是,ChatGPT 和 GPT4 在地学相关的 AP 考试上的分数并没有随着 GPT4 的技术报告一同给出,留给大家十足的想象空间。

    在大模型纷争的时代,大多数垂直领域的大模型训练都有统一的范式,那就是先进行专业领域语料的预训练,再进行指令微调。但是大多数的模型在预训练阶段使用的数据并不透明,指令微调的数据更多的是蒸馏 ChatGPT 来抑或进行高价的人工标注。但是 K2 针对地学这一个垂直领域给出了一套技术路线,从计算机角度通过数据的整合和提炼来进行学科交叉的知识工程和模型构建,这是 K2 之于数据挖掘和自然语言领域的贡献之一。

    针对预训练数据,该团队基于 Grobid,PyPDF2 和 DeepShovel  (https://deepshovel.deep-time.org/) 等工具开发了一套数据清洗工具包。

    DeepShovel:是一款辅助地学科学家进行知识抽取的文献标注平台,也陆续推广至所有的学术领域。目前 DeepShovel 以及辅助超过一百家地球科学的科研单位。

    其中,每一篇地学开放获取(Open Access)的论文都会被转化成对于计算机来说可读性极高的 Markdown 格式的文本,有着多级标题的区分、公式和引用的特殊词元(Special Token)以及图片和表格的注释文本也被特殊词元保存下来。经过一系列的操作,累计获取了 5.5B 词元(Tokens)的文本语料。目前他们正在构建更大的学术资源的语料,旨在进行更大规模的学术大模型的训练。

    针对指令微调数据,该团队通过多个自主研发平台上的数据融合,通过数据重构,将具备一定结构化的网页进行了解构,并重组成一套 knowledge-intensive 的数据。在这个过程中,上海交通大学团队集中团队内部所有的平台课题组的力量,进行数据的充分重组,从而构建了一套独一无二的具有特定地学任务的知识性指令微调数据集。

    据论文描述,上海交通大学团队在过去的 3 年,相应 DDE 大科学计划(https://deep-time.org/)的号召,完成研发的地学数据和功能平台共 4 个。

    Deep literature    https://ddescholar.acemap.info/     致力于打造地学领域的 DBLP,将所有的地学学术文献进行整合并依托这个平台进行一系列的数据挖掘和学者画像的分析。

    GAKG    https://gakg.acemap.info/     致力于打造地学领域的多模态学术知识图谱,对所有的地学学术文献进行数据的挖掘,抽取文献之间的关联关系、地学知识点之间的上下位等语义关系以及地学文献内的知识挖掘。对外提供了语义查询和文本搜索系统,也是 CIKM 历史上第一篇地球科学相关的科研文章。GAKG 对外也提供了数据下载、语义查询和文本搜索的平台。同时,GAKG 的技术工作也发表在 CIKM 上,也是一篇计算机科学领域与地球科学交叉研究的科研文章。

    GSO    https://gso.acemap.info/     是利用机器生成人工修正的地学知识树系统,用上下位关系维护了地学知识点之间的关联,这给大模型提供了很好的地学知识链接预测的监督信号。

    DataExpo    https://dataexpo.deep-time.org/    通过关键词检索以及文本分类归纳了所有的地学数据集。

    这些平台承载着地学的知识元数据,如果通过人工整合平台底层的数据逻辑,将可以很快的获得地学知识之间关联关系,以及一定的任务驱动的数据集。

    基于 DDE Scholar 可以获得地学相关的科研文献,并且通过其中 OA 的文献的下载链接,可以下载下来构建预训练语料,通过 GAKG,可以构建实体抽取的数据集,语义上下位词的知识判断的数据集。通过 DeepShovel 一直以来的数据积累,可以构建特定任务的地学问答系统,以及文献中表格抽取的数据集。通过 DataExpo,可以得到数据集相关的知识文本,也可以一定程度上类似科研文献一般,提供地学知识的监督信号。

    当然,一定程度上的蒸馏 ChatGPT 确实能辅助模型向 ChatGPT 靠拢,因此针对不同的地学领域,K2 还集成了一套基于 Self-instruct 的指令微调数据集,并且在 ChatGPT 生成之后也通过了专业地学同事的审核,进而得到高质量的监督效果。

  • 原文来源:https://mp.weixin.qq.com/s/lMdUdsJmtVN5BdxZKFw3uA
相关报告
  • 《中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」》

    • 来源专题:数智化图书情报
    • 编译者:黄雨馨
    • 发布时间:2023-06-17
    • 今天,一年一度的高考正式拉开帷幕。 与往年不同的是,当全国考生奔赴考场的同时,还有一些大语言模型也成为了这场角逐中的特殊选手。 随着 AI 大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。 比如,在关于 GPT-4 的技术报告中,OpenAI 就主要通过各领域的考试对模型能力进行检验,而 GPT-4 展现出的优秀「应试能力」也是出人意料。 中文大语言模型挑战高考卷的成绩如何?是否能够赶超 ChatGPT ?让我们来看看一位「考生」的答题表现。 综合 “大考”:“书生?浦语” 多项成绩领先于 ChatGPT 近日,商汤科技、上海 AI 实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型 “书生?浦语”(InternLM)。 “书生?浦语” 具有 1040 亿参数,是在包含 1.6 万亿 token 的多语种高质量数据集上训练而成。 全面评测结果显示,“书生?浦语” 不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越 ChatGPT 的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。 “书生?浦语” 联合团队选取了 20 余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集: 由伯克利加州大学等高校构建的多任务考试评测集 MMLU;微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval;以及由复旦大学研究团队构建的高考题目评测集 Gaokao; 实验室联合团队对 “书生?浦语”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 进行了全面测试,针对上述四个评测集的成绩对比如下(满分 100 分)。 “书生?浦语” 不仅显著超越了 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval,以及 Gaokao 等多个综合性考试中领先于 ChatGPT;在以美国考试为主的 MMLU 上实现和 ChatGPT 持平。这些综合性考试的成绩反映出 “书生?浦语” 扎实的知识掌握程度和优秀的综合能力。 虽然 “书生?浦语” 在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生?浦语” 受限于 2K 的语境窗口长度(GPT-4 的语境窗口长度为 32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。 四个综合性考试评测数据集结果 MMLU 是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和 UIUC 共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。 细分科目结果如下表所示。 图中粗体表示结果最佳,下划线表示结果第二 AGIEval 是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。 这个评测集基于中国和美国各类考试构建了 19 个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT 等重要考试。值得一提的是,在这 19 个大项有 9 个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。 下列表格中,带 GK 的是中国高考科目。 图中粗体表示结果最佳,下划线表示结果第二 C-Eval 是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。 它包含了 52 个科目的近 14000 道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。 测试结果可以通过 leaderboard 获得。 https://cevalbenchmark.com/static/leaderboard.html Gaokao 是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。 在 GaoKao 测评中,“书生?浦语” 在超过 75% 的项目中均领先 ChatGPT。 分项评测:阅读理解、推理能力表现出色 为避免 “偏科”,研究人员还通过多个学术评测集,对 “书生?浦语” 等语言模型的分项能力进行了评测对比。 结果显示,“书生?浦语” 不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。 知识问答方面,“书生?浦语” 在 TriviaQA 和 NaturalQuestions 两项评测上得分为 69.8 和 27.6,均超越 LLaMA-65B(得分为 68.2 和 23.8)。 阅读理解(英语)方面,“书生?浦语” 明显领先于 LLaMA-65B 和 ChatGPT。浦语在初中和高中英语阅读理解中得分为 92.7 和 88.9,ChatGPT 得分为 85.6 和 81.2,LLaMA-65B 则更低。 中文理解方面,“书生?浦语” 成绩全面超越主要的两个中文语言模型 ERNIE-260B 和 GLM-130B。 多语翻译方面,“书生?浦语” 在多语种互译中的平均得分为 33.9,显著超越 LLaMA (平均得分 15.1)。 数学推理方面,“书生?浦语” 在 GSM8K 和 MATH 这两项被广泛用于评测的数学考试中,分别取得 62.9 和 14.9 的得分,明显领先于 Google 的 PaLM-540B(得分为 56.5 和 8.8)与 LLaMA-65B(得分为 50.9 和 10.9)。 编程能力方面,“书生?浦语” 在 HumanEval 和 MBPP 这两项最具代表性的考评中,分别取得 28.1 和 41.4 的得分 (其中经过在代码领域的微调后,在 HumanEval 上的得分可以提升至 45.7),明显领先于 PaLM-540B(得分为 26.2 和 36.8)与 LLaMA-65B(得分为 23.7 和 37.7)。 此外,研究人员还对 “书生?浦语” 的安全性进行评测,在 TruthfulQA(主要评价回答的事实准确性) 以及 CrowS-Pairs(主要评价回答是否含有偏见)上,“书生?浦语” 均达到领先水平。 关于 “书生?浦语” 的技术报告已在公开,报告对模型的技术特点以及测试结果进行了详细阐述,了解更多可访问:https://github.com/InternLM/InternLM-techreport
  • 《NASA将迎来地球科学实地调查的又一个繁忙之年》

    • 来源专题:中国科学院文献情报系统—海洋科技情报网
    • 编译者:mall
    • 发布时间:2017-02-06
    • 从夏威夷火山到科罗拉多山顶和西太平洋岛屿,2017年美国国家航空航天局(NASA)的科学家们正在踏遍世界各地,研究地球如何变化以及对人类影响的关键科学问题。 现场实验是NASA地球科学研究的重要组成部分。结合卫星观测和计算机模型,世界各地的科学家使用该机构的实地数据应对环境挑战,提高我们对地球这个复杂的综合系统的认知。 NASA科学任务局的副主管Thomas Zurbuchen说道,NASA一直在努力拓宽太空研究的边界,推进科学发展并改善世界各地生活。这些实地考察活动帮助我们建立更好的工具,以解决水资源短缺的管理和公众自然灾害预警等问题。 新增调查任务 2017年1月NASA新增了三个新的实地考察活动。科学家准备采用未来卫星将高光谱红外成像仪(HyspIRI)投放到夏威夷上空,用以收集有关珊瑚礁健康和火山爆发及其排放物的机载数据。这个空中实验支撑着一个潜在的HyspIRI卫星任务,研究世界生态系统并提供自然灾害信息。 借助卫星开展未来工作的科学家1月份便从夏威夷启航,负责完成浮游生物、气溶胶、云、海洋生态系统(PACE)任务。他们搭载Falkor号科考船在一个月的时间内横跨整个太平洋海域,以监测海洋浮游植物和微观植物类生物的多样性及其对海洋碳循环的影响。新测量数据将与现有卫星观测数据进行比较,并用于为PACE任务做准备。 同年2月,SnowEx机载任务开始飞跃科罗拉多积雪覆盖的森林上空,这是多年来首次确定地球上积雪覆盖区的储水量。 持续调查任务 除了新的实地考察活动外,今年还将继续进行八个地球科学项目。 NASA的大气层析成像(ATom)任务的第二次部署开始于1月份,计划在世界各地飞行28天。 ATom将收集200多种不同气体的测量数据,以及海表面附近7英里高度范围内空气中的气溶胶。其目标是了解短期温室气体(如臭氧和甲烷)的来源、运动和转化,这些气体是气候变化的重要贡献者。 大气碳和转移研究。美国(ACT-America)研究小组于1月返回美国东半部天空,继续跟踪大气碳的运动,其目标是更好地了解温室气体的来源和汇集。 NASA正前往北极开展三次实地考察活动。本年3月,格陵兰岛海洋融化(OGG)项目将对格陵兰岛边缘和沿海状况进行第二次冰川高度空中调查,其任务是首次全面了解冰川和海洋的年度变化。 冰桥行动小组(Operation IceBridge)将于3月返回北极,连续第九年测量格陵兰冰盖海拔和海冰范围变化。在秋天,该团队还将开始其在南极洲陆地和海冰的年度测量工作。 为期十年的北极北方脆弱性实验(ABoVE)于去年正式启动,今年夏天将继续其任务中的机载部分,以研究快速变化的阿拉斯加和加拿大北部地区生态。该小组将运用多样化的仪器来调查该地区的冰冻层、碳循环、植被和水体,调查数据将应用于未来的卫星任务,科学家也将进入现场支持机载测量。 今年NASA将回到太平洋地区开展两项实验。2月,珊瑚礁机载实验室(CORAL)项目小组将继续在夏威夷群岛进行空中和水中调查,以评估面临威胁的珊瑚礁生态系统状况。2017年春天,CORAL将针对帕劳、关岛以及马里亚纳群岛其他地区水域开展调研。同年10月,NASA上层海洋地区研究第二盐度流程(SPURS-2)项目小组将返回东部热带太平洋,以回收去年9月安装的仪器,并调查控制盐度变化的海洋和大气过程。 在世界另一边,NASA将回到大西洋开展两场实地调研。气溶胶上云层观测及其相互作用(ORACLES)研究小组将从其纳米比亚基地出发,在今年秋天使用机载仪器开展一系列工作,以探测东南大西洋上空云层与南部非洲植被燃烧释放烟雾之间的相互作用,及其对气候和降雨的影响。北大西洋气溶胶和海洋生态系统研究(NAAMES)小组将开始从事海洋和空气部分的调研工作,在前两年的基础上继续研究世界上最大的水华如何产生有机小颗粒并对云和气候产生相应影响的。 (於维樱 编译)