《科学家发布全球首个多模态地理科学大模型 推动地理学与人工智能深度融合》

  • 来源专题:人工智能
  • 编译者: 高楠
  • 发布时间:2024-09-20
  •       9月19日,中国科学院地理科学与资源研究所正式发布该单位联合中国科学院青藏高原研究所、自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)。
          大模型是指通过海量数据训练的深度学习模型,具备强大的语言理解、信息生成和处理能力。“坤元”是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力。研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作,让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。
          在“懂地理”方面,该团队建立了涵盖4大类、16小类的地理全学科语料库,提供了320亿词元供大模型自监督学习,制作了4万余条高质量地理学指令进行模型微调。与通用语言大模型相比,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,并在地理学基准测试集上的准确性提升了31.3%。
          在“精配图”方面,该团队自主研发了面向多层次地图信息的多模态检索技术以及支持地理认知与图形表达的知识推理技术。这些技术使得“坤元”能够在解答地理学提问的同时,可以根据生成的文字答案检索不同地理要素,并匹配地理景观照片、专题地图或示意图表呈现给提问者。
          在“知人心”方面,该团队创新性地提出了基于“认知启航-应用智导-前沿研析”框架的用户画像精准判别与响应技术,保证“坤元”能够充分考虑地理知识爱好者、地理学专业学生和科研人员的地理科学知识体系认知和表达差异,以图文共现的方式给出适配用户知识结构的地理学专业问题解答。
          在“智生图”方面,该团队基于“坤元”开发的科研助手,可以根据用户指令完成概念理解、数据获取、信息分析、制图综合等流程,生成用户需要的专业地理图表。
          “坤元”旨在拓宽普通大众的地理视野,解放地理从业者的双手,推动地理智能发展,赋能地理科学研究,加速重要地理科学发现。目前,“坤元”已支撑发表Nature子刊、The innovation、Earth’s Future等高水平学术论文10余篇。未来,研发团队将推进地图大模型与地理推理机研发,以期让地理科学语言大模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,并能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。


    责任编辑:侯茜

  • 原文来源:https://www.cas.cn/syky/202409/t20240918_5032137.shtml
相关报告
  • 《百度发布首个量子领域大模型》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-27
    • 9月23-24日,以“协同创新 量点未来”为主题,2023量子产业大会在安徽合肥召开。量子领域院士专家、智库机构、产业界嘉宾汇聚一堂,探讨量子产业化之路。 作为主旨报告嘉宾,百度量子计算研究所所长段润尧带来百度量子软硬件和解决方案等方面的最新成果,重磅发布首个量子领域大模型,及百度量子助手和量子写作助手两大AI原生应用,加速量子技术与大模型深度融合。他还发布了量子领域大模型白皮书,展望量子领域大模型的未来发展趋势和技术潜力。 当前,量子计算带来后摩尔时代算力革命,广阔市场空间随之打开。有数据显示,2031年69%的全球大型企业计划将采用量子计算。 依托百度量子平台和文心大模型的双重底座优势,百度发布首个量子领域大模型,旨在芯片层、框架层、模型层及应用层等全栈技术上加速量子技术与大模型深度融合,充分激发两大技术各自的潜力。 据段润尧介绍,该量子领域大模型是在文心一言基础上,使用量子领域高质量数据进行更有针对性的训练和优化而构建的量子领域大模型,能更好地理解量子知识,专业执行量子任务。百度量子领域大模型将充分发挥技术协同效应,在数据、算法和算力等各方面取长补短,实现双向赋能,将在训练速度、模型性能、训练成本、交互效率和数据隐私等各个维度全面加持现有大模型的技术能力。 百度量子助手是依托百度量子知识库与产业级知识增强文心大模型,基于7800万原始数据、22万精调数据训练打造。作为百度量子平台的统一入口,百度量子助手打通了百度量子平台量子硬件、量子软件、量子应用的技术全链条,持续降低百度量子平台的使用门槛。 量子写作助手实现了量子领域知识和技术准确且高效的输出,让量子知识触手可及,降低量子计算学习门槛,提高量子计算科研效率。只需输入6个变量,量子写作助手可在5分钟内撰写一篇13000字符合格式要求的专利文档,高效帮助企业将量子领域的研究成果与知识产权沉淀为企业资产。 段润尧进一步分享,量子领域大模型的未来发展将会呈现出多个代表性阶段。从近期以适配量子领域的行业大模型开始,大幅降低量子教育行业门槛;逐渐过渡为经典和量子混合大模型,再发展到通用量子领域大模型,有望实现大模型技术在数据、算法、算力等各维度的全面量子化;最终,量子领域大模型将会成为新时代的操作系统,在量子互联网的基础上互联互通,成为社会发展的基础设施。 现场,段润尧重磅发布量子领域大模型白皮书。报告指出,量子科技与大模型成为技术变革主引擎,量子计算是有效模拟大规模量子系统的利器,量子领域大模型或将成为量子人工智能的最终形式。交互式机制建立起“能力”传递的纽带,而量子纠缠有望将这种机制发挥至极致。 此外,段润尧公布了百度在量子芯片、软硬一体化解决方案等核心领域的最新进展。 百度量子平台近一年进行了持续大规模更新,在金融科技、光量子和量子芯片三大领域均有新功能发布。在金融科技领域,百度量子计算研究所推出量子金融工具集QFinance,提供全面且多功能的量子期权定价工具,整合众多前沿量子算法,包括量子蒙特卡洛、量子傅里叶变换和量子相位估计算法,既确保了计算的高度准确性,也显著缩短了算法运行时间,为资产配置带来了新的高效解决方案。 在光量子领域,百度推出光量子计算模拟器PQS(Photonic Quantum Simulator),为光量子芯片设计和算法研发提供了宝贵的工具和资源。该模拟器支持基于Gaussian态和Fock态的光量子线路模拟,并包含了近20种量子门和测量操作,可模拟多种光量子计算算法,是国内首款可以自由搭建光量子计算线路的模拟工具。 百度量子瞄准超导量子芯片研发“设计、流片、测控” 闭环中的核心技术,旨在研发具有业界核心竞争力的高性能量子芯片。目前,百度量子已完成一款 2D 含耦合器量子芯片的“流片验证”,以及一款 3D flipchip 含耦合器量子芯片的版图设计和仿真验证。近期,“高性能量子芯片的设计、流片与测控全栈技术” 项目荣获「2023 百度十大科技前沿发明」。高性能量子芯片研发将对人工智能、材料科学、药物研发、金融科技等领域带来高潜价值。 去年8月,百度推出全球首个全平台量子软硬一体化解决方案“量羲”,打造出量子计算产业落地的可行路径。量羲平台与百度云计算进行深度融合,并采纳了"四算合一"的战略布局,实现了量子计算、高性能计算、云计算及人工智能计算的有机融合。这使得平台能够根据不同业务需求,灵活调配算力资源。近期“量羲”已完成首个商业化合同的PoC部署。 在量子生态与知识产权方面,百度已申请高质量专利超过280项,已授权120项,覆盖量子算法与应用、量子通信与网络等热门研究方向。今年3月,百度牵头成立国内首个量子计算产业知识产权联盟,并设立国内首个量子计算专利池,在关键量子专利领域进行布局,以推动量子产业高效发展。 “量子产业化和产业量子化已成为未来发展的必然趋势,量子领域大模型有望进一步加速这些目标的实现。百度将持续为用户开放量子资源,为客户提供量子升级培训,与伙伴一起共创量子生态,期待携手用户、客户、伙伴,一同迈向量子计算产业化之路,实现人人皆可量子的时代。”段润尧表示。
  • 《《科学美国人》发布“2020全球十大新兴技术”》

    • 来源专题:科技大数据监测服务平台
    • 编译者:zhoujie
    • 发布时间:2020-12-07
    • 来源:环球科学 此届「2020年全球十大新兴技术」是由《科学美国人》和世界经济论坛共同评选出的,入榜的技术需满足超越现有技术的先进性和对社会进步的推动性。 无痛注射微针 肉眼几乎不可见的“微针”让我们有望进入一个无痛注射和无痛血检的新时代。 许多微针注射器以及微针贴片已经被应用于疫苗注射、糖尿病胰岛素注射、皮肤疾病(如牛皮癣、疣和某些皮肤癌)、癌症以及神经性疼痛疗法的临床试验等。微针注射器或者微针贴片可将药物直接注射进表皮或真皮中,所以它们能够比常见的依靠皮肤扩散的透皮贴剂更有效地递送药物。 微针产品的商业化进程正在加快,这些产品能快速、无痛地抽取血液或间质液,用于疾病诊断或监测。如果将针头连接到生物传感器上,则该设备可以在几分钟之内直接测量指示健康或疾病状态的生物标志物。 微针产品可帮助使用者完成在家取样和检测,或者在家取样后的邮寄运输,医疗服务匮乏地区也可因此收益,实现远程医疗和医疗互补。不只是皮肤,随着应用于皮肤以外的其他器官,微针技术也会产生新的用途。 二氧化碳变材料 利用阳光将废弃二氧化碳转化为化学产品的新方法。 发现能打破二氧化碳中碳氧双键的光催化剂是这项技术的关键壁垒。可利用废气生产有用的化合物,可用于包括药品、洗涤剂、化肥和纺织品原料的合成。 光催化剂通常是半导体,以往的认知是需要高能紫外线才能产生参与转化二氧化碳的电子。然而高能紫外线不是自然光能大量提供的。最新技术的进步体现在,改造后的催化剂只需要可见光就能生产出广泛使用的物质,如甲醇、甲醛和甲酸等。它们被广泛应用于粘合剂、泡沫剂、胶合板、橱柜、地板和消毒剂的生产中。 化工产业将把废弃的二氧化碳转化为有价值的产品,朝着真正无浪费的可循环绿色经济前进,并帮助全球实现碳化中和甚至负排放的目标。 虚拟病人 在虚拟人体器官或人体系统上测试药物和疗法的有效性,可降低评估的时间与金钱成本,并减少真人志愿者参与试验中可能存在的健康风险。 虚拟器官的第一步是需要建模。它需要将大量真实人体器官的高分辨率图像输入复杂的数学模型中,利用强大的计算机生成在外观和行为上与真实人体器官相似度极高的虚拟器官。 计算机模拟医学可以参与疾病的诊断、风险干预以及个性化精准医疗。例如,FDA 正在使用计算机模拟代替真实人体,来评估新的乳房摄影术系统;基于云服务的 HeartFlow 分析,经FDA批准,可根据CT 图像来判断病人是否患有冠状动脉疾病。 空间计算 空间计算/spatial computing是真实物理世界与数字世界的巧妙融合。 虚拟现实和增强现实技术完美融合:让传感器和马达实现互动;将通过云连接的设备数字化;以数字化方式代表现实世界。 空间计算将会使人机交互和机器间的交互效率提高到崭新的水平,未来可被应用于包括工业、医疗保健、运输和家庭生活在内的多个领域。乃至未来使用 GPS、激光雷达、视频和其他地理位置技术,就可以创建房间、建筑物或城市的数字地图。 算法可以把数字地图和其他信息集成在一起,创建一个可观察、可量化和可操纵的数字世界,当然这样的操作也能同时触及现实世界。科幻电影中才能出现的场景,相信在不久的未来,我们就能触手可及。 医疗服务应用程序 能想象未来医生开出的处方上,用于诊断或者治疗用的「药物」竟然是一款App或软件吗?这就是数字医疗/digital medicines。 数字医疗其实在我们的生活中已经应用的十分广泛了,像用手机手机包括声音、位置、面部表情、运动、睡眠和打字的节奏等。然后用人工智能技术分析这些信息后,就能预测可能出现的病情或症状的发展状况。 配置有特殊的传感器的智能手表,可以自动检测并提醒用户是否出现心房纤颤。更多的正在开展的研究还将数字医疗用于包括筛查呼吸障碍、抑郁症、帕金森病、阿尔茨海默病、自闭症和其他病症的诊断中。 除了这些体外可佩戴的设备,已经有研究深入到可吞服的带有传感器的“药丸”,即“生物微电子设备”。研发的团队们期望能够应用于包括检测癌症DNA、肠道微生物释放的气体、胃出血量、体温和脉氧水平等领域。当然,在大数据泄露已经相当普遍的今天,需要这项技术在隐私保护方面做的更好。 飞机电动助推器 2019年,航空业的碳排放量占全球总碳排放量的 2.5%,到 2050 年,这一数字可能还会增加两倍。电动飞机的研发吸引了众多航空公司参与其中。 电动推进器不仅可以消除直接碳排放量,还能降低多达 90%的燃料成本、50%的维护成本和近70%的噪音。 电动化的不只有发动机。在正在研发的美国X-57麦克斯韦号上,传统的长机翼被一对更短的、上面分布有电动推进器的机翼取代。电动推进器增加了飞机起飞时的升力,因此机翼可以做得更小,进而提高飞机总体的飞行效率。 目前来看,电动飞机的限制还是在于飞行里程。与传统飞机燃料相比,如今最好的电池的容量仍然有限:前者为 12 000 瓦时每千克,后者只有 250瓦时每千克。 未来也许比你手机没电更可怕的是,你乘坐的飞机没电了! 新技术水泥 作为使用最为广泛的一种人造材料,混凝土塑造了今天世界的众多高楼大厦。作为混凝土的关键成分「水泥」,其生产的过程往往伴随着大量的碳排放。诸多替代方案或碳中和方案正在研发和实践中。 一家加拿大公司通过矿化作用将其他化工厂产生的二氧化碳储存在混凝土中;另一家加拿大公司完全放弃了在混凝土中使用水泥,转而使用炼钢行业的一种副产品「钢渣」。 总部位于德国的跨国公司海德堡水泥计划将挪威的一处工厂改造为世界首个实现零排放的水泥工厂。其已经开始使用废物作为替代燃料,并计划通过引入碳捕捉和碳储存技术,在 2030 年前消除工厂的所有碳排放量。 另外,一些生物材料也被科研人员巧妙的加入到绿色混凝土的研发中。初创公司 BioMason 用细菌和颗粒物“长出”了类似水泥的材料。另一个创新项目,利用一种叫做蓝细菌的光合作用微生物制作出低碳混凝,这种细菌接种到沙子-水凝胶支架上,制造出一种能自我修复裂缝的砖块。 量子传感器 量子传感器是一种利用亚原子粒子的行为进行超灵敏测量的仪器,能使自动驾驶汽车提前“看见”拐角之后的情况;能让水下导航系统、火山活动和地震预警系统更加先进;还能让随时随地监测大脑活动的便携式磁共振(MRI)扫描仪成为现实。 对于任何测量仪器来说,测量单位越小,测量的精度也就越高。量子传感器可以通过测量亚原子粒子的行为,使设备达到极高的分辨率。原子钟就利用了这一原理:我们这个世界的时间是建立在铯133原子的电子在一秒内完成 9 192 631 770 次特定跃迁的基础上的。 英国伯明翰大学的研究人员正在开发一种量子传感器,用自由落体的过冷原子来检测局部重力的微小变化。这种量子重力计能够用于检测埋入地下的管道、电缆和其他物体,使我们不必挖开地面就能进行测量。航海的船只也可以采用类似的技术来探测水下物体。 虽然大多数量子传感系统仍然过于昂贵,而且拥有庞大的体积和复杂的结构,但更小、更便宜的新一代量子传感器很快就会开辟出一条新的道路。去年,美国麻省理工学院的研究人员成功地将一个用钻石做成的量子传感器放在了硅片上。这样的原型产品是我们实现低成本、批量化生产量子传感器的第一步。 电解绿色氢能 “绿氢”是通过电解产生的氢气。在电解过程中,水被分解为氢气和氧气,没有任何其他副产物。 从历史上看,电解需要消耗大量能量,因此用这种方式生产氢气几乎没有意义。这正是创新技术的着力点,新的技术瞄准了目前的电网中经常会出现大量没有被消耗的可再生电力。与其将这些过量的电力用电池组储存起来,还不如用它来电解水,以氢能的方式存储。其次,电解器的效率也提高了。 最近,一家能源公司新开发了新型电解器,产生1千克氢气只需要消耗不到40千瓦时的能量。能源公司正在将这些电解器直接集成到可再生能源项目中,以此实现绿氢的规模化生产。 虽然绿氢仍处于起步阶段,但一些国家正在加紧投资这项技术。澳大利亚希望利用丰富的太阳能和风能生产氢气并出口。智利计划在该国干旱但是拥有大量太阳能电力的北部生产氢能。我国的目标则是在 2030 年以前让上百万辆氢燃料电池汽车上路。 基因组合成 全基因组合成可以使得合成生物学再次伟大。研究人员可以使用软件设计基因序列,合成后再导入微生物体内,即实现对微生物编程。 如今,设计包含数百万个核苷酸的基因组已经并非难事。经过合成的微生物科研变成N个小型的生物工厂,这座工厂不仅能够生产药物,还能生产其他产品。比如,它们可以被设计为持续生产某些化学物质、燃料和新型建筑材料的工厂。而生产原材料也只是非食物类的生物质,甚至是被看作废气的二氧化碳。 很多科学家还希望能够合成更大的基因组,比如来自植物、动物和人类的基因组。要实现这一点,我们还需要加大对设计软件、合成设备和组装设备的投入。