6月24日,认知智能全国重点实验室牵头,联合中国科学院文献情报中心、中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟发布了《通用大模型评测体系2.0》(以下简称“评测体系2.0”)。
这是该评测体系自2023年6月发布以来的首次重大升级。“评测体系2.0”以技术迭代与产业需求为导向,在评测维度扩展、专项能力深化、评测方法优化等方面实现全面突破,为中国大模型产业发展提供更加科学的标准化支撑。
评测任务扩展至1186项全模态覆盖引领行业前沿,相比1.0版本的7大能力维度、71类任务类型、481个细分任务,“评测体系2.0”实现了全方位升级。
在任务规模上,“评测体系2.0”涵盖8大类、1186项细分任务,任务规模扩大至近2.5倍;在模态能力方面,从原有的文本/图片单一模态扩展至文本、图片、语音、视频全模态覆盖,新增了多模理解、多模生成、语音交互等能力评测;在语言支持上,从中文为主扩展至中英文并重,支持多语言评测,基础通用认知能力全面支持中英文双语评测。