FlagEval(天秤)是由智源研究院与多所高校团队联合打造而成的,是一个采用“能力-任务-指标”三维评估框架的大型评估平台,旨在提供全面、详细的评估结果。该平台已经涵盖了30多种能力、5种任务和4大类指标,共计600多个维度的全面评估内容,任务维度包括了22个主客观评估数据集和84433道题目。
智源研究院推出的FlagEval(天秤)大模型评测平台
有时候AI的幽默让我笑出声
有时候AI的幽默让我笑出声