MMBench

MMBench是一项多模态基准测试项目，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目开发了一套全面的评估流程，从感知到认知能力进行逐级细分评估，覆盖了20种细致能力，来自互联网和权威基准数据集的约3000道单项选择题。该项目打破传统基于规则匹配的一问一答评测方式，通过循环打乱选项验证输出结果的一致性，并采用基于ChatGPT的精准匹配模型回复至选项。

MMBench的特色

通过感知和推理，我们将评估维度分解为不同级别。总共有大约3000道单项选择题，涵盖了目标检测、文字识别、动作识别和图像识别。
对理解、关系推理等 20 个细致层面的评估维度。

更加稳健的评估方法。循环使用相同的单选问题选项进行提问，若模型的所有输出均指向同一个答案，则被认定为通过。相较于传统的一次性评估，通过率平均降低了10%至20%。这种方法最大程度地减少了各种噪声因素对评估结果的影响，确保了结果的可重复性。

提供更可靠的模型输出提取方法。该方法基于 ChatGPT 模型的输出与备选项进行匹配，即使模型未按照指令输出，也可以准确匹配到最合适的选项。

MMBench官网

全方位的多模态大模型能力评测体系

访问官网> 攻略讨论>

MMBench

MMBench的特色

MMBench官网

相关问题

相关内容