MMBench

来源:里奇AI圈子:AI模型测评 2024-05-28 18:36:13 308阅读 举报

MMBench是一项多模态基准测试项目,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目开发了一套全面的评估流程,从感知到认知能力进行逐级细分评估,覆盖了20种细致能力,来自互联网和权威基准数据集的约3000道单项选择题。该项目打破传统基于规则匹配的一问一答评测方式,通过循环打乱选项验证输出结果的一致性,并采用基于ChatGPT的精准匹配模型回复至选项。

MMBench的特色

  • 通过感知和推理,我们将评估维度分解为不同级别。总共有大约3000道单项选择题,涵盖了目标检测、文字识别、动作识别和图像识别。
    对理解、关系推理等 20 个细致层面的评估维度。
  • 更加稳健的评估方法。循环使用相同的单选问题选项进行提问,若模型的所有输出均指向同一个答案,则被认定为通过。相较于传统的一次性评估,通过率平均降低了10%至20%。这种方法最大程度地减少了各种噪声因素对评估结果的影响,确保了结果的可重复性。
  • 提供更可靠的模型输出提取方法。该方法基于 ChatGPT 模型的输出与备选项进行匹配,即使模型未按照指令输出,也可以准确匹配到最合适的选项。
  • MMBench官网

    MMBench

    全方位的多模态大模型能力评测体系

    访问官网> 攻略讨论>

    合作联络微:vapehome
    链接:https://www.aiddithome.com/p/258e71cbaa7bb.html
    版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”
    AI玩家论坛社区

    登录 后发表评论
    1条评论
    JarodYv
    1楼 · 2024-05-28 19:10:13

    AI的智能推荐总能给我带来惊喜