《农智观察 | 建设高质量数据集,让人工智能更聪明》

  • 来源专题:农机装备
  • 编译者: 江浩
  • 发布时间:2025-06-03
  • 什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。 “数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。”中国信息通信研究院副院长魏亮告诉记者,数据集的质量影响人工智能的“智商”,近期发布的深度求索系列模型训练中,大量使用了高质量推理数据集,凸显了高质量数据的重要性,“大模型与垂直领域深度融合,同样也需高质量数据集的支撑。” 建设高质量数据集,有关方面在积极行动。国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。第八届数字中国建设峰会上,国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。 “随着基础模型开源态势的形成,各方在算力和模型算法层面的差距正在不断收窄,数据要素价值更加凸显,已成为人工智能竞争的核心领域。”国务院国资委规划发展局副局长胡武婕表示,要推动行业高质量数据集加速汇聚共享,为人工智能产业提供充足“养分”,从而持续进行不同场景的训练优化,推动基础模型在千行百业落地应用。 目前,高质量数据集建设还存在不少挑战。魏亮说,一方面,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。另一方面,在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。 4月30日,《高质量数据集建设指南(征求意见稿)》发布。全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集:一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。 国家数据局副局长夏冰表示,数据集的质效提升是人工智能赋能实体经济的“催化剂”,下一步,国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究,促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基。 声明:本文所用图片、文字如涉及作品版权问题,请联系我们删除。 来源:国家数据局 识别小程序 速来体验吧~ 农智云平台以大数据智能技术为依托,以农业经营主体需求为导向,构建面向农业农村场景的农业智能知识服务云平台,支持线上线下交互、生产销售业务自适应协同、个性化信息推荐、农情预测、知识问答、病虫害诊断、产业专题等智能服务,满足不同场景对农情信息智能知识服务的需求。
  • 原文来源:http://mp.weixin.qq.com/s?__biz=Mzg5MjcxMTI4OA==&mid=2247548565&idx=2&sn=f2f511641fee3a36d02e39b1407be1bc&chksm=c1e0ea780c163802a79151af2dde83f17061b86ca6a57a13f52bfdf42d58c64ff79754c7bef8&scene=126&sessionid=1748287102#rd
相关报告
  • 《真正推动生成式人工智能的是高质量和可信数据的可用性》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2024-03-14
    •       开发和讨论大型语言模型的技术花费了大量的时间和精力。虽然这项技术确实令人印象深刻,但正在构建生成式人工智能应用程序的企业意识到,真正推动生成式人工智能的是高质量和可信数据的可用性。       生成式人工智能将焦点放在数据质量问题上,这一事实并不令人惊讶。毕竟,数据和人工智能归根结底是不可分割的,因为人工智能只是数据的一种升华。但有时,在一段时间的过度刺激之后,需要重新吸取惨痛的教训,比如当前的生成式人工智能热潮。       市场上为确保高级分析和机器学习项目的数据质量而开发的许多相同工具和技术也适用于新颖的生成式人工智能应用程序。这有助于推动数据可观察性软件提供商的业务。       虽然生成式人工智能需要一些新工具,但公司为早期高级分析和机器学习项目所做的许多投资都可以在生成式人工智能中重用,将数据存放在Databricks或Snowflake存储库中的公司正在利用这些数据平台来构建他们的生成式人工智能应用程序。       蒙特卡洛成立于2019年,使用各种统计方法来检测客户数据管道何时可能出现问题。传统上,该公司的技术部署在ETL/ELT管道中,将数据从事务系统转移到数据仓库。随着生成式人工智能变得越来越流行,这些公司正在使用蒙特卡洛来帮助确保检索增强生成(RAG)和微调工作流程的内容是准确的。       蒙特卡洛还参与了一些生成式人工智能项目。高管们表示,谷物制造商、医疗保健公司和金融服务公司都希望该公司的软件能够帮助他们保持数据管道的良好运行,并能够为聊天机器人和推荐引擎等生成式人工智能应用程序提供高质量和可信的数据。       加维什说:“整个实验都在提醒企业,数据对它们的运营有多么重要。你必须让你的数据井然有序,以便在它的基础上构建生成性应用程序。要做到这一点,你必须将你的内部数据纳入模型,无论是通过RAG还是微调。” “但你必须以某种方式将你的数据嵌入模型,然后基本上回到基础,对吧?”他接着说。“你如何弄清楚你有什么数据,在哪里,有多好,然后你如何保持它的信任和可靠?”我们并没有解决所有这些问题,但我们绝对专注于可靠性和信任部分。”加维什说,蒙特卡洛接受了它所扮演的新角色,特别是在帮助解决LLM围绕幻觉和不确定结果的各种问题时。 他说:“因此,基础数据的可靠性变得更加关键,因为这就是缓解措施。”。“归根结底,人们之所以进行RAG,还有其他原因,因为模型本身并不是非常准确。所以RAG是一种让它们更准确的方法,但如果数据不可信,这种方法就行不通了。”
  • 《人工智能助推能源产业高“智”发展》

    • 来源专题:能源情报网监测服务平台
    • 编译者:郭楷模
    • 发布时间:2025-02-17
    • 相关测试显示,DeepSeek用较低的成本达到全球人工智能领军企业OpenAI旗下主流产品的性能。这一进展不仅破解了全球人工智能产业长期以来“堆算力”的路径依赖,更在资本市场和社会应用层面引发多重震荡。能源行业高质量发展进程中,将与人工智能碰撞出怎样的火花? 实现全民级AI科普 此次引起热议的是深度求索先后推出两款大模型产品:DeepSeek V3和DeepSeek R1,V3为其自研MoE模型,应用场景包括聊天、编码、多语言自动翻译、图像生成和AI绘画等,其性能与世界顶尖模型GPT-4o不相上下;R1作为面向复杂推理任务的大模型,全球首次复现OpenAI o1模型且性能对比不分伯仲。两款模型是开源模型性能达到世界顶尖闭源模型的首例。 简单来说,DeepSeek像是一个聪明又懂你的生活助手,不光能回答问题,还能撰写文章、整理资料,甚至做一些复杂的推算。 “DeepSeek以惊艳的产品体验完成了全民级AI科普。”360集团创始人周鸿祎向《中国能源报》记者介绍,R1通过展示完整的思维链条增强用户信任,其推理过程呈现出类似人的逻辑缜密性与自然交互特性,极大降低了用户的使用门槛。不同于传统指令型模型,R1通过主动理解用户意图实现了需求响应的智能化突破,让用户真切感受到AI的技术变革。 DeepSeek应用的背后是算法和数据支持。大数据算法与分析技术国家工程实验室大数据算法测试与示范应用中心主任、西安交通大学计算机科学与技术学院教授田锋向《中国能源报》记者指出,DeepSeek实现硬件约束下的大模型高效优化,成本相对低且保持同时代大模型的性能,打破了当前大模型研制必须由大数据、大算力、大能耗、大资金支撑的研发范式,更打破外界认为“中国新一代人工智能技术落后第一梯队的美国半年甚至1年以上”的不实观点,给中国人工智能行业注入了一剂强心针,在世界范围产生一定引领作用和重要影响。近期,美国亚马逊、微软等公司都复刻DeepSeek并将其纳入到自己的产品中。 周鸿祎指出,DeepSeek实现了技术范式的重大突破,其核心是从预训练范式转向强化学习范式的推理模型,能够对复杂问题和任务进行逻辑拆解与规划,具备归纳总结和反思改进能力。R1基于强化学习技术减少了对人类数据和算力的依赖,为发展真正超越人类的AGI(通用人工智能)带来了可能性。 加速渗透至各行各业 值得一提的是,DeepSeek不仅实现了高性能与低成本的完美结合,更在于其选择了一条与OpenAI截然不同的路径——开源。DeepSeek的开发者在公开模型代码的同时,还通过论文详细阐释其技术原理。这意味着任何人都可以自由使用,并通过更改底层代码来改变其工作方式。 OpenAI首席执行官萨姆·奥特曼(Sam Altman)称,OpenAI在开源AI软件方面“一直站在历史的错误一边”。技术开源不但对全世界广泛的人工智能研究、应用起到鼓励技术创新与协作的正向推动作用,同时降低了各方的开发成本。 田锋指出,DeepSeek为资金有限、高端硬件不足的国家和地区、机构、研究者提供免费开源、高效能的基础大模型,从而使他们也可以享受新一代人工智能带来的各种机遇,打破了由美国资本堆积、科技宣传建立起来的“要用高端人工智能产品,必须向美国购买才能享用”的旧有思维。 “DeepSeek开创了商业模式的创新路径,以开源免费模式提供顶尖性能模型,打破了闭源垄断的市场格局,倒逼行业巨头转向开源生态。”周鸿祎指出,人工智能不仅是新一轮科技革命和产业变革的重要驱动力量,更是我国赢得全球科技竞争主动权的重要战略抓手。DeepSeek通过全栈开放,引发了开源社区、云平台、芯片企业、AI应用开发者纷纷转向DeepSeek,证明开源模式能快速突破国际技术封锁,降低行业壁垒,形成技术扩散的“蒲公英效应”。开源实践展示出一条“以开放破封锁、以协作促创新”的中国AI发展路径。 人工智能正以前所未有的速度渗透至各行各业。周鸿祎进一步指出,一方面优质的开源模型将吸引大量开发者与企业迁移至DeepSeek技术栈,重构AI应用市场格局,推动AI解决方案的爆发式创新;另一方面低门槛的开源模型促进私有化部署的普及,使AI能力真正渗透至企业与科研机构,产生更深远的社会影响。 能源行业配上“智慧大脑” DeepSeek在能源领域会有怎样的应用? 中国科学院院士、西安交通大学电子与信息学部主任管晓宏向《中国能源报》记者指出,人工智能技术早已在智慧能源、智慧矿山、油气勘测等领域开展应用,人工智能是进行新能源预测最有力的工具,可以推动能源生产与管理优化、效率提升,为能源行业转型升级带来智力支持。 管晓宏认为,智能化将为能源行业带来深刻变革,但其规模应用仍面临一系列挑战。能源行业的AI应用需要结合具体领域,开发定制化的垂直大模型,对技术团队的要求较高。能源系统的运行需要实时监控和响应,这对AI算法的计算效率和延迟提出了更高要求。许多能源场景需要边缘计算支持,模型需在计算能力和存储资源有限的条件下具备本地部署能力,面临技术复杂性问题。 能源行业事关国家安全和民生保障,对AI系统的可靠性和安全性要求极高,如何在数据共享和隐私保护之间找到平衡是一大难题。目前,能源行业AI应用还缺乏统一标准和规范,技术推广和应用效果参差不齐。初期投入高、回报周期长,新技术引入验证和评估周期长等问题都有待解决。 管晓宏认为,人工智能的发展离不开强大的算力支撑,而算力和数据基础设施的运行呈现高耗能,“双碳”目标下,如何实现绿色计算和绿色算力面临巨大挑战。DeepSeek展示了应用更“聪明”的算法和代码训练AI模型的巨大前景,同其他大模型相比,DeepSeek计算效率大大提高,更加绿色,通过针对行业的进一步开发和演进,更具分布式和实用性部署的优势。 管晓宏建议,尽快推进数字基础设施低碳化转型,算力电力协同发展,逐步解决绿电对算力中心的直供问题,大力推动零碳、低碳算力和数据中心的建设。尽快制定绿色能源直接应用政策,特别是电网与绿色算力配合的政策,积极开展算力网综合碳效的评估与碳排放治理工作。一方面应该充分利用区域资源优势,实现绿电在本地算力中心的有效利用;另一方面充分考虑算力基础设施区域性、结构性布局,围绕分布式绿色能源系统,尽快制定风、光、氢等绿能建设的规划。