MMBench是一项多模态基准测试项目,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。该项目开发了一套全面的评估流程,从感知到认知能力进行逐级细分评估,覆盖了20种细致能力,来自互联网和权威基准数据集的约3000道单项选择题。该项目打破传统基于规则匹配的一问一答评测方式,通过循环打乱选项验证输出结果的一致性,并采用基于ChatGPT的精准匹配模型回复至选项。
MMBench的特色
通过感知和推理,我们将评估维度分解为不同级别。总共有大约3000道单项选择题,涵盖了目标检测、文字识别、动作识别和图像识别。
对理解、关系推理等 20 个细致层面的评估维度。更加稳健的评估方法。循环使用相同的单选问题选项进行提问,若模型的所有输出均指向同一个答案,则被认定为通过。相较于传统的一次性评估,通过率平均降低了10%至20%。这种方法最大程度地减少了各种噪声因素对评估结果的影响,确保了结果的可重复性。提供更可靠的模型输出提取方法。该方法基于 ChatGPT 模型的输出与备选项进行匹配,即使模型未按照指令输出,也可以准确匹配到最合适的选项。
MMBench官网
AI的智能推荐总能给我带来惊喜