AI模型测评与排行榜

首页>内容>AI工具>AI模型测评

NEWS内容

帖子分类:: 不限 AI教程 AI工具 AI前沿

二级分类:: 不限 AI写作 AI绘图 AI视频 AI办公 AI设计 AI对话聊天 AI编程 AI搜索 AI音频 AI翻译 AI法律助手 AI内容检测 AI提示词 AI大模型 AI模型测评 AI学习学习AI AI开发框架

已选择:: AI工具-AI模型测评清空

全部帖子免费付费

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 提供的一个开放工具，专门用于评估和比较大型语言模型（LLM）。它为用户提供了一个平台，用以了解这些...

评论0 喜欢0 举报

860

LLMEval3

LLMEval是由复旦大学NLP实验室发布的一种大型模型评估基准。LLMEval-3是其最新版本，专注于评估专业领域的知识能力。此版本涵盖教...

评论1 喜欢0 举报

1049

MMLU

MMLU 是 Massive Multitask Language Understanding 的缩写，是一种用于评估大型模型语言理解能力的...

评论1 喜欢0 举报

1727

Open LLM Leaderboard

Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单，它是基于 Eleuth...

评论1 喜欢0 举报

626

C-Eval

C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具，由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中...

评论1 喜欢0 举报

661

SuperCLUE

SuperCLUE是一个综合评估中文通用大型模型的基准测试，评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括：语义理解...

评论1 喜欢0 举报

926

PubMedQA

PubMedQA是一个生物医学研究问答数据集，其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前，这个排行榜...

评论1 喜欢0 举报

969

FlagEval

FlagEval（天秤）是由智源研究院与多所高校团队联合打造而成的，是一个采用能力-任务-指标三维评估框架的大型评估平台，旨在提供全面、详细...

评论1 喜欢0 举报

825

OpenCompass

OpenCompass是上海人工智能实验室（上海AI实验室）于2023年8月正式推出的一种大模型评测系统，采用完全开源且可复现的评测框架，支...

评论1 喜欢0 举报

703

CMMLU

CMMLU是一个综合性的中文评估标准，主要用于评价语言模型在中文环境下的知识和推理能力。该标准涵盖了从基础学科到高级专业水平的67个主题，包...

评论1 喜欢0 举报

876

Chatbot Arena

Chatbot Arena 是一个大型的语言模型 (LLM) 基准平台，通过众包方式进行匿名的随机对战。该项目由 LMSYS Org 建立，...

评论1 喜欢0 举报

928

MMBench

MMBench是一项多模态基准测试项目，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目...

评论1 喜欢0 举报

764

HELM

HELM是斯坦福大学推出的Holistic Evaluation of Language Models（语言模型整体评估）大模型评测体系，包...

评论1 喜欢0 举报

677

Hot News热门内容

即创

2024-06-16

COURSE推荐课程

more >

POUULAR热门关注

AI教程

Aiddit

扫码微信公众号给你想要的成长

NEWS内容

H2O EvalGPT 是 H2O.ai 提供的一个开放工具，专门用于评估和比较大型语言模型（LLM）。它为用户提供了一个平台，用以了解这些...

LLMEval是由复旦大学NLP实验室发布的一种大型模型评估基准。LLMEval-3是其最新版本，专注于评估专业领域的知识能力。此版本涵盖教...

MMLU 是 Massive Multitask Language Understanding 的缩写，是一种用于评估大型模型语言理解能力的...

Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单，它是基于 Eleuth...

C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具，由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中...

SuperCLUE是一个综合评估中文通用大型模型的基准测试，评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括：语义理解...

PubMedQA是一个生物医学研究问答数据集，其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前，这个排行榜...

FlagEval（天秤）是由智源研究院与多所高校团队联合打造而成的，是一个采用能力-任务-指标三维评估框架的大型评估平台，旨在提供全面、详细...

OpenCompass是上海人工智能实验室（上海AI实验室）于2023年8月正式推出的一种大模型评测系统，采用完全开源且可复现的评测框架，支...

CMMLU是一个综合性的中文评估标准，主要用于评价语言模型在中文环境下的知识和推理能力。该标准涵盖了从基础学科到高级专业水平的67个主题，包...

Chatbot Arena 是一个大型的语言模型 (LLM) 基准平台，通过众包方式进行匿名的随机对战。该项目由 LMSYS Org 建立，...

MMBench是一项多模态基准测试项目，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目...

HELM是斯坦福大学推出的Holistic Evaluation of Language Models（语言模型整体评估）大模型评测体系，包...

Hot News热门内容

更多热门

COURSE推荐课程

相关推荐

POUULAR热门关注

Aiddit