AI模型测评 H2O EvalGPT H2O EvalGPT 是 H2O.ai 提供的一个开放工具,专门用于评估和比较大型语言模型(LLM)。它为用户提供了一个平台,用以了解这些... 特智能 2024-07-09 举报 576 浏览 0 评论
AI模型测评 LLMEval3 LLMEval是由复旦大学NLP实验室发布的一种大型模型评估基准。LLMEval-3是其最新版本,专注于评估专业领域的知识能力。此版本涵盖教... Wincy 2024-05-28 举报 707 浏览 1 评论
AI模型测评 MMLU MMLU 是 Massive Multitask Language Understanding 的缩写,是一种用于评估大型模型语言理解能力的... AIGC 2024-05-28 举报 1158 浏览 1 评论
AI模型测评 Open LLM Leaderboard Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单,它是基于 Eleuth... 夏花生 2024-05-28 举报 312 浏览 1 评论
AI模型测评 C-Eval C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具,由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中... ChinaAI 2024-05-28 举报 352 浏览 1 评论
AI模型测评 SuperCLUE SuperCLUE是一个综合评估中文通用大型模型的基准测试,评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括:语义理解... 柠檬君 2024-05-28 举报 642 浏览 1 评论
AI模型测评 PubMedQA PubMedQA是一个生物医学研究问答数据集,其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前,这个排行榜... 特智能 2024-05-28 举报 654 浏览 1 评论
AI模型测评 FlagEval FlagEval(天秤)是由智源研究院与多所高校团队联合打造而成的,是一个采用能力-任务-指标三维评估框架的大型评估平台,旨在提供全面、详细... AIGC 2024-05-28 举报 514 浏览 1 评论