| CSDN(ID:CSDNnews)
在这场旷日持久的百模大战中,不仅各家大模型在极致内卷,大模型排行榜的评测标准也在不断迭代。
目前,Hugging Face的开源大模型排行榜(Open LLM Leaderboard)是大模型领域最具权威性的榜单,它收录了全球上百个开源大模型——本周三,Hugging Face 宣布推出新版开源大模型排行榜(Open LLM Leaderboard):“成绩已趋于平稳,那就让排行榜再次陡峭起来吧!”
在这个更具挑战性的排行榜中,昨日 Hugging Face 的联合创始人兼首席执行官 Clem 在 X 上宣布:阿里最新开源的 Qwen2-72B 指令微调版(Qwen2-72B-Instruct),力压科技巨头 Meta 的 Llama-3 和法国著名大模型平台 Mistralai 的 Mixtral,成为新版开源模型排行榜第一名。
很高兴宣布全新的开源大模型排行榜。我们烧掉了 300 个 H100,重新对所有主流开源 LLM 进行了新的评估,如 MMLU-pro!
我们发现:
-Qwen 72B 仍是王者,中国的开源模型在整体上占主导地位;
- 以前的评估对最近的模型来说太容易了,就像用初中问题给高中生打分一样;
- 有迹象表明,AI 构建者开始过于关注主要评估,而忽略了模型在其他评估上的表现;
- 更大并不一定更聪明。
“彻底改变评估方式”,推出开源大模型排行榜 v2!
开源大模型排行榜诞生之前,Hugging Face 的RLHF团队经历了很艰难的一段时间:想要重现和比较几个已发布模型的结果,但发现这几乎是一项不可能完成的任务——很多论文和营销文中对模型的评分,都是在没有任何可重现代码的情况下给出的,难以复现。
因此,RLHF 团队决定以完全相同的设置(相同的问题、相同的提问顺序等)对参考模型进行评估,以收集完全可重复和可比较的结果——这就是 Hugging Face 开源大模型排行榜的诞生过程。
据 Hugging Face 统计,在过去 10 个月中超过 200 万人访问过这个榜单,每月有近 30 万人以不同方式在使用它,主要是为了:
(1)寻找最先进的开源模型。因为排行榜提供了可复现的分数,可以把市场宣传与实际表现区分开来。
(2)评估自己的工作。无论是预训练还是微调,用公开的方法与现有的最佳模型进行比较,以此赢得公众的认可。
但近一年时间下来,Hugging Face 发现随着模型性能不断提高,原来那套评测基准有点不够用了。首先这套基准已被过度使用,对许多模型来说没有太大难度,其次有部分模型就是用这套基准数据或与其非常相似的数据上训练出来的,评测结果可能不公平,最后有一些评测基准还存在错误需要纠正。
基于以上原因,Hugging Face 决定“彻底改变评估方式”,推出开源大模型排行榜 v2!
Qwen2-72B第一名的位置仍然不变
根据 Hugging Face 博文介绍,新版开源大模型排行榜具有无污染、高质量数据集的新基准,使用可靠的度量标准并测量有趣的模型功能。为此,Hugging Face 决定用以下 6 个基准来涵盖测评任务:MMLU-Pro、GPQA、MUSR、MATH、IFEval 和 BBH。
从新版开源大模型排行榜来看,尽管每个大模型的综合评分都因新评测基准有不同程度的降低,但 Qwen2-72B 第一名的位置仍然不变。
可以看到,Qwen2-72B-Instruct 这六项基准的平均分最高,其中 MATH 和 BBH 这两项评分第一:
另外,在 GPQA 和 MMLU-Pro 这两项上,Qwen2-72B 也夺得第一,平均分位于总榜第三:
值得一提的是,除了 Qwen2-72B,榜单前列还有我们许多熟悉的中国模型:零一万物的 Yi-1.5-34B-Chat 处在第 7 名,Qwen1.5-110B 和 Qwen1.5-110B-Chat 也分别位于榜单第 10 名和第 11 名——正如 Hugging Face 联合创始人兼首席执行官 Clem 所说:“中国的开源模型在整体上占主导地位。”
参考链接:
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
https://huggingface.co/spaces/open-llm-leaderboard/blog