• 快讯 Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务

    来源专题:中国科学院自动化所所级服务
    编译者:张桂英
    发布时间:2024-11-25
    Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于英语。 在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场景中的模型表现。 最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)中的表现,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语、俄语等八种语言,以全面测试模型在多轮、跨语言场景下的指令执行能力。 论文链接:https://arxiv.org/abs/2410.15553 Multi-IF下载链接:https://huggingface.co/datasets/facebook/Multi-IF 实验结果表明,多数LLM在多轮对话中表现出显著的性能衰减。