AI模型测评
  • 文章
  • 问答
AI模型测评
H2O EvalGPT

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 提供的一个开放工具,专门用于评估和比较大型语言模型(LLM)。它为用户提供了一个平台,用以了解这些...
举报 511 浏览 0 评论
AI模型测评
LLMEval3

LLMEval3

LLMEval是由复旦大学NLP实验室发布的一种大型模型评估基准。LLMEval-3是其最新版本,专注于评估专业领域的知识能力。此版本涵盖教...
举报 623 浏览 1 评论
AI模型测评
MMLU

MMLU

MMLU 是 Massive Multitask Language Understanding 的缩写,是一种用于评估大型模型语言理解能力的...
举报 906 浏览 1 评论
AI模型测评
C-Eval

C-Eval

C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具,由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中...
举报 274 浏览 1 评论
AI模型测评
SuperCLUE

SuperCLUE

SuperCLUE是一个综合评估中文通用大型模型的基准测试,评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括:语义理解...
举报 565 浏览 1 评论
AI模型测评
PubMedQA

PubMedQA

PubMedQA是一个生物医学研究问答数据集,其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前,这个排行榜...
举报 575 浏览 1 评论
AI模型测评
FlagEval

FlagEval

FlagEval(天秤)是由智源研究院与多所高校团队联合打造而成的,是一个采用能力-任务-指标三维评估框架的大型评估平台,旨在提供全面、详细...
举报 440 浏览 1 评论
暂无相关问题

快速提问,在线解答

1

描述需求

填写需求概要标题,补充详细需求

2

耐心等

等待网友或网站工作人员在线解答

3

巧咨询

还有疑问?及时追问回复

立即咨询
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息
  • 作者很懒,暂未设置签名

    作者暂未设置个人介绍信息