CMMLU是一个综合性的中文评估标准,主要用于评价语言模型在中文环境下的知识和推理能力。该标准涵盖了从基础学科到高级专业水平的67个主题,包括自然科学中需要计算和推理的内容、人文科学和社会科学领域的知识,以及中国驾驶规则等需要生活常识的内容。另外,CMMLU中的许多任务都具有中国特有的答案,可能并不适用于其他地区或语言。因此,这是一个完全针对中国市场的中文测试标准。
一个综合性的大模型中文评估基准
响应快
响应快