简介
AGI-Eval 是一个面向人工智能研究者、开发者以及企业技术评估需求的大模型评测社区,官网地址是 agi-eval.cn。这个平台由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和科研机构联合创办,致力于打造一个公正、可信、科学且全面的评测生态,核心使命是“评测助力,让 AI 成为人类更好的伙伴”。AGI-Eval 专注于评估人工智能基础模型(foundation models)在人类认知、复杂推理、知识运用等任务中的综合能力,是当前行业内极具权威性和参考价值的评测体系之一。它不仅提供大模型能力排名榜单,还支持多种评测类型和人机协同竞赛,帮助使用者全面理解模型优劣势。
特点
AGI-Eval 的平台设计兼顾科研严谨性和社区开放性,具有以下显著特点:
首先,平台提供详细且权威的大模型能力榜单,这些榜单基于统一的通用评测方案,对业内主流大语言模型进行综合能力和专项能力的量化评分,数据透明且定期更新,可帮助用户洞察各模型在理解、推理、知识深度等维度的表现。其次,AGI-Eval 鼓励人与模型的协同评测,通过构建人机协同评测任务推动技术发展与标准制定。再次,平台聚合了丰富而多样的评测数据集,包括公开学术集、官方自建评测集与用户自建评测集等,并且支持社区共同建设与开源共享。除此之外,其 Data Studio 数据工坊拥有高活跃用户群体和多元数据类型,通过机器审核与人工审核的多重机制确保评测数据质量。
如何使用
想要体验 AGI-Eval 的各类评测功能,用户可以按照以下步骤操作:
第一步,打开浏览器访问 AGI-Eval 官网并注册账号;第二步,根据实际需求在平台内选择合适的评测任务,如语言理解、推理能力、综合智力等;第三步,按照提示提交需要评估的 AI 模型,平台会结合评测集执行自动化及人工混合评测;第四步,等待系统完成评测并在结果页查看详细的能力得分、对比分析与排名情况。对于科研人员,还可以下载公开数据集或上传自建评测集,共同参与社区生态建设。
价格
AGI-Eval 目前主要面向学术界和开发者社区开放核心评测功能,基础服务和大部分数据集都是免费提供的,用户可以免费注册并参与常规评测任务。针对企业级用户或更高阶的私人化需求,平台可能会提供定制化或付费服务方案,但目前官网上尚未明确公布完整的商业定价体系,因此所有核心评测能力对普通用户都是可免费使用的。
常见问题
用户在使用 AGI-Eval 时常关心的几个问题包括:
一是 AGI-Eval 是否支持多语言评测?是的,平台整合了中英文双语任务,为模型语言能力提供全面评估。二是评测的数据是否对外公开?平台提供公开学术评测集供用户下载,同时允许用户上传自定义评测集参与社区共建。三是评测结果如何展现?评测完成后用户可以看到详细的能力得分和模型排名榜单,便于深入分析模型表现。四是平台是否支持用户自定义评测任务?支持用户上传个人评测集并根据需要执行自定义评测流程。五是评测周期是多久?评测时间会根据任务复杂度和数据规模有所不同,一般标准任务较快完成,而更复杂的多领域评测则需要更长一些时间。











