NEWS内容

帖子分类:
不限 AI教程 AI工具 AI前沿
已选择:
清空

MMLU

MMLU 是 Massive Multitask Language Understanding 的缩写,是一种用于评估大型模型语言理解能力的...

评论1 喜欢0 举报

1164

Open LLM Leaderboard

Open LLM Leaderboard 是由 Hugging Face 推出的最大规模模型和数据集社区开源模型榜单,它是基于 Eleuth...

评论1 喜欢0 举报

313

C-Eval

C-Eval是一套适用于大型语言模型的跨学科多层次中文评估工具,由上海交通大学、清华大学和爱丁堡大学的研究人员于2023年5月一同发布。其中...

评论1 喜欢0 举报

354

SuperCLUE

SuperCLUE是一个综合评估中文通用大型模型的基准测试,评估模型在基础能力、专业能力和中文特性能力三个方面的表现。基础能力包括:语义理解...

评论1 喜欢0 举报

642

PubMedQA

PubMedQA是一个生物医学研究问答数据集,其中包含1K个专家标注、61.2K个未标注和211.3K个人工生成的问答实例。目前,这个排行榜...

评论1 喜欢0 举报

657

FlagEval

FlagEval(天秤)是由智源研究院与多所高校团队联合打造而成的,是一个采用能力-任务-指标三维评估框架的大型评估平台,旨在提供全面、详细...

评论1 喜欢0 举报

515

OpenCompass

OpenCompass是上海人工智能实验室(上海AI实验室)于2023年8月正式推出的一种大模型评测系统,采用完全开源且可复现的评测框架,支...

评论1 喜欢0 举报

420

CMMLU

CMMLU是一个综合性的中文评估标准,主要用于评价语言模型在中文环境下的知识和推理能力。该标准涵盖了从基础学科到高级专业水平的67个主题,包...

评论1 喜欢0 举报

485

Chatbot Arena

Chatbot Arena 是一个大型的语言模型 (LLM) 基准平台,通过众包方式进行匿名的随机对战。该项目由 LMSYS Org 建立,...

评论1 喜欢0 举报

437

MMBench

MMBench是一项多模态基准测试项目,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目...

评论1 喜欢0 举报

425

HELM

HELM是斯坦福大学推出的Holistic Evaluation of Language Models(语言模型整体评估)大模型评测体系,包...

评论1 喜欢0 举报

379

Lightning AI

Lightning AI是一个平台,旨在构建模型和发布Lightning Apps(机器学习工作流模板)。这个平台由Pytorch Ligh...

评论1 喜欢0 举报

354

Vercel AI SDK

Vercel AI SDK是由前端网站开发和托管平台以及Next.js开发团队「Vercel」推出的开发工具套件,旨在快速构建AI聊天机器人...

评论1 喜欢0 举报

362

Leap

Leap 提供方便易用的应用程序界面和软件开发工具包,帮助开发人员在短短几分钟内将人工智能功能集成到他们的应用程序中,包括生成图像、编辑图像...

评论1 喜欢0 举报

358

JAX

GoogleJAX是一个机器学习框架,用于转换数值函数,谷歌将其描述为结合了经过修改的Autograd(能够自动获取梯度函数的函数微分工具)...

评论1 喜欢0 举报

452

NLTK

NLTK(Natural Language Toolkit)自然语言工具包——是一个支持自然语言处理研究和开发的开源Python工具包,包含...

评论1 喜欢0 举报

614

Hot News热门内容

即创

更多热门

COURSE推荐课程

more >
相关推荐

POUULAR热门关注

Aiddit

扫码微信公众号 给你想要的成长