NEWS内容

帖子分类:
不限 AI教程 AI工具 AI前沿
二级分类:
不限 AI写作 AI绘图 AI视频 AI办公 AI设计 AI对话聊天 AI编程 AI搜索 AI音频 AI翻译 AI法律助手 AI内容检测 AI提示词 AI大模型 AI模型测评 AI学习 学习AI AI开发框架
已选择:
AI工具-AI模型测评 清空

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 提供的一个开放工具,专门用于评估和比较大型语言模型(LLM)。它为用户提供了一个平台,用以了解这些...

评论0 喜欢0 举报

510

LLMEval3

LLMEval是由复旦大学NLP实验室发布的一种大型模型评估基准。LLMEval-3是其最新版本,专注于评估专业领域的知识能力。此版本涵盖教...

评论1 喜欢0 举报

622

MMLU

MMLU 是 Massive Multitask Language Understanding 的缩写,是一种用于评估大型模型语言理解能力的...

评论1 喜欢0 举报

901

Open LLM Leaderboard

Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单,它是基于 Eleuth...

评论1 喜欢0 举报

244

C-Eval

C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具,由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中...

评论1 喜欢0 举报

274

SuperCLUE

SuperCLUE是一个综合评估中文通用大型模型的基准测试,评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括:语义理解...

评论1 喜欢0 举报

563

PubMedQA

PubMedQA是一个生物医学研究问答数据集,其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前,这个排行榜...

评论1 喜欢0 举报

574

FlagEval

FlagEval(天秤)是由智源研究院与多所高校团队联合打造而成的,是一个采用能力-任务-指标三维评估框架的大型评估平台,旨在提供全面、详细...

评论1 喜欢0 举报

439

OpenCompass

OpenCompass是上海人工智能实验室(上海AI实验室)于2023年8月正式推出的一种大模型评测系统,采用完全开源且可复现的评测框架,支...

评论1 喜欢0 举报

347

CMMLU

CMMLU是一个综合性的中文评估标准,主要用于评价语言模型在中文环境下的知识和推理能力。该标准涵盖了从基础学科到高级专业水平的67个主题,包...

评论1 喜欢0 举报

337

Chatbot Arena

Chatbot Arena 是一个大型的语言模型 (LLM) 基准平台,通过众包方式进行匿名的随机对战。该项目由 LMSYS Org 建立,...

评论1 喜欢0 举报

327

MMBench

MMBench是一项多模态基准测试项目,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目...

评论1 喜欢0 举报

307

HELM

HELM是斯坦福大学推出的Holistic Evaluation of Language Models(语言模型整体评估)大模型评测体系,包...

评论1 喜欢0 举报

303

Hot News热门内容

即创

更多热门

COURSE推荐课程

more >
相关推荐

POUULAR热门关注

Aiddit

扫码微信公众号 给你想要的成长