Open LLM Leaderboard

来源:夏花生圈子:AI模型测评 2024-05-28 19:10:00 245阅读 举报

Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单,它是基于 Eleuther AI 语言模型评估框架开发的。

随着大量大型语言模型(LLM)和聊天机器人的发布,社区往往会夸大宣传它们的性能,很难确定开源社区的真正进展以及当前最先进的模型。因此,Hugging Face采用了Eleuther AI语言模型评估框架,对模型进行了四项关键基准测试评估。这是一个统一的框架,用于在各种不同评估任务上测试生成式语言模型。

 LLM Leaderboard评估基准

  • AI2 推理挑战(25张图片):关于小学科学的一系列问题
  • HellaSwag(十关挑战):这是一个测试人类常识推理能力的任务,对人类来说相对容易(大约95%成功率),但对最先进的模型来说具有挑战性。
  • MMLU(5-shot)- 用于评估文本模型在多任务上的准确性。测试覆盖了57项任务,包括基本数学、美国历史、计算机科学、法律等领域。
  • 零样本真实问答 - 旨在评估模型在在线常见虚假信息中的倾向。

Open LLM Leaderboard官网

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

访问官网> 攻略讨论>

合作联络微:vapehome
链接:https://www.aiddithome.com/p/de87818756ede.html
版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”
AI玩家论坛社区

登录 后发表评论
1条评论
Rocket
1楼 · 2024-05-28 19:06:00

这个工具的个性化设置很贴心,赞一个