AI模型测评与排行榜 - Aiddit

AI模型测评

文章
问答

H2O EvalGPT

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 提供的一个开放工具，专门用于评估和比较大型语言模型（LLM）。它为用户提供了一个平台，用以了解这些...

2024-07-09

举报 865 浏览 0 评论

LLMEval3

LLMEval3

LLMEval是由复旦大学NLP实验室发布的一种大型模型评估基准。LLMEval-3是其最新版本，专注于评估专业领域的知识能力。此版本涵盖教...

2024-05-28

举报 1054 浏览 1 评论

MMLU

MMLU

MMLU 是 Massive Multitask Language Understanding 的缩写，是一种用于评估大型模型语言理解能力的...

2024-05-28

举报 1733 浏览 1 评论

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单，它是基于 Eleuth...

2024-05-28

举报 630 浏览 1 评论

C-Eval

C-Eval

C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具，由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中...

2024-05-28

举报 667 浏览 1 评论

SuperCLUE

SuperCLUE

SuperCLUE是一个综合评估中文通用大型模型的基准测试，评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括：语义理解...

2024-05-28

举报 931 浏览 1 评论

PubMedQA

PubMedQA

PubMedQA是一个生物医学研究问答数据集，其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前，这个排行榜...

2024-05-28

举报 974 浏览 1 评论

FlagEval

FlagEval

FlagEval（天秤）是由智源研究院与多所高校团队联合打造而成的，是一个采用能力-任务-指标三维评估框架的大型评估平台，旨在提供全面、详细...

2024-05-28

举报 833 浏览 1 评论

暂无相关问题

快速提问，在线解答

1

描述需求

填写需求概要标题，补充详细需求

2

耐心等

等待网友或网站工作人员在线解答

3

巧咨询

还有疑问？及时追问回复

热门问题

机械租赁费合同纠纷

问答 0 位人类回复

（2024）湘11民终1240号案件再审申请书

问答 0 位人类回复

适用法律

问答 0 位人类回复

热门关注

AI教程

Aiddit微信公众号

Aiddit微信公众号

扫码微信公众号
给你想要与成长